폼과 플래시도 인덱싱하는 구글 검색엔진

July 01, 2008 02:51 PM

구글 검색엔진은 폼요소 뿐만 아니라 플래시 안의 텍스트 까지 검색을 하는 군요. 이미지로 처리된 요소들은 아직 검색을 안하지만 텍스트로 들어간 데이터는 사용을 한다고 합니다. 하지만 자바스크립트로 화면에 넣는 플래시 파일은 인덱싱을 못할 수도 있다고 합니다. 구글봇이 자바스크립트를 완전히 해석은 못하기 때문이라는 군요. 바꿔 말하면 어느정도의 자바스크립트는 파싱을 하나 봅니다. 스크립트 안에 있는 URL정도는 인덱싱을 하겠죠.

접근성에서 기계가 콘텐츠를 인지할 수 있느냐 하는 문제는 아주 중요합니다. 구글봇도 기계(Googlebot doesn't have eyes.)이기 때문에 보통 접근성이 낮은 콘텐츠를 얘기를 할 때 검색로봇이 접근 할 수 없다는 얘기를 많이 하게 됩니다. 그런데 이제는 플래시도 탐색을 하니 이러한 개념도 서서히 바뀌고 있는 것 같습니다.

이러한 기술을 잘 사용하면 보조기기를 만드는데 도움이 많이 될 수 있을 것 같습니다. 이미지 인식 기술도 그렇고 동영상 검색기술도 많이 발전되어서 사용하는 비용이 낮아지면 보조기기들도 많이 발전하게 될 수 있을 것입니다. 다만 아직까지는 보조기기 제작 업체들이 이러한 기술을 충분히 따라가지 못해서 텍스트 기반의 데이터를 고려해줘야만 합니다. 그리고 구글 외의 다른 검색엔진은 아직 플래시나 폼요소를 인덱싱하지 않으니까요.

Trackbacks

TrackBack URL: http://hyeonseok.com/soojung/trackback.php?blogid=467
  • Deep web까지 자동 수집 해주겠다고 나선 구글봇(Googlebot) from Roess' 127.0.0.1

    HTML form 을 이용한 웹페이지 수집 Crawling through HTML forms  [via Google Webmaster Central Blog, 2008.04.11] 구글이 크롤러(Crawler)를 개선하여 이른바 "Deep Web" 이나 "Invisible Web"로 알려진 HTML form 입력 ...

  • 그의 모니터는 늘 꺼져있습니다. from Inspiration, Feel Good Factor for Flex Dev

    '그의 모니터는 늘 꺼져있습니다. 켜 있을 필요가 없는 탓입니다. 앞을 볼 수 없는 병욱 씨는 컴퓨터가 빠르게 읽어주는 소리를 들으며 코딩을 합니다.' 마소 7월호 인터뷰기사에 실린 센스리...

Comments

  • Roess 2008-07-01 16:07

    hyeonseok님 블로그는 오래 전부터 구독하고 있었는데, 이번에 연관글때문에 처음 덧글 남기게 되었습니다. 좋은 글 감사합니다.

  • NeoZest 2008-07-02 11:07

    폼까지 색인하는 것은 처음 알았네요 ^^

    플래시의 경우 Adobe사에 가면 플래시파일에 있는 텍스트를 추출해주는 라이브러리를 제공해 준답니다 :) 이를 이용해서 색인하지 않을까 싶네요.

    궁금한 점은 최근 플래시 파일들을 보면 AS를 통해 별도의 XML 데이터를 받아서 Presentation만 처리하던데, 이런 경우도 되는지 궁금하네요 :)

    아직 현석님께서 올리신 링크를 쫓아가보지 못해서..^^ 이제 갑니다. :)

  • 김요한 2008-07-02 11:07

    확실히 이 부분은 서광이 비치는거 같아요 ㅎㅎ

  • 신현석 2008-07-02 11:07

    텍스트 추출은 어도비의 라이브러리를 썼다고 하고요. 아직은 외부에서 불러오는 파일들은 하나의 문맥으로 처리하지 않고 각각 별도의 페이지인 것으로 처리한다고 하네요. 하나의 문맥으로 파악하는 것이 가장 큰 관건일 텐데, 달성만 된다면, 시멘틱웹이나 관련 부분에 굉장한 업적이 될 수 있을 것 같습니다.

  • deute 2008-07-03 14:07

    실버라이트나 플래시나 용도에 따른 개발자의 올바른 사용이 상당히 중요할것 같아요.
    실버라이트는 그냥 xaml 로 컨텐츠를 파악할 수 있어야 하긴 하는데, 그걸 또 그냥 놔두질 않으니... 확실히 이런것 까지 잘 해석해서 읽어준다면 좋긴하겠죠..
    아님 object 에 대한 표현과 동작을 분리하는게 표준이 되면 더 좋겠네요;(될리가; )

Post a comment

:

: 공개 되지 않습니다. Gravatar를 표시 합니다.

:

: HTML 태그를 사용할 수 없습니다.