본문 바로가기
IT & Online 책장/인공지능 시대

커지는 Web공간에서 구글의 검색 원리

by 오책방 2016. 10. 30.
반응형

# GOOGLE HOW SEARCH WORKS

구글의 검색과정을 알아보려고 합니다. 구글 검색의 원리(http://www.google.co.kr/intl/ko/insidesearch/howsearchworks/crawling-indexing.html) 동영상을 본 것을 옮겼습니다. 웹에서 검색할 때 어떻게 이뤄지는 지 상당히 재밌었습니다. 검색할 때 웹을 검색하는 것이 아니라 웹 색인 검색한는 것이라고 합니다.  웹을 색인으로 기록하는 것이예요. 그 일을 하는 것이 스파이더라 부르는 소프트웨어라고 합니다. 웹 페이지를 가져오는 것으로 시작해 페이지에 연결된 링크를 따라가 새로 가리킨 페이지를 가져오고 각각의 페이지에 있는 링크를 따라가서 새링크를 가져오는 식입니다.

크롤링란, 웹 페이지를 그대로 가져와서 데이터를 추출해 내는 행위를 말합니다. 크롤링을 기반으로 만든 서비스형 검색엔진으로 네이버와 구글 등이 있습니다. 색인이란, 책 속의 낱말이나 구절로 검색자가 찾아보기 쉽도록 일정한 순서로 나열한 목록을 가리킵니다. 인덱스라고도 합니다. 구글의 색인 규모는 100,000,000 GB를 넘어 구축하는 데 1백만 컴퓨팅 시간이 소요됩니다. 구글의 Web 크롤러로 'Googlebot'이 있습니다.


구글은 수입억 페이지로 된 방대한 규의 웹 색인을 생성했습니다. 검색과 동시에 스파이더는 각 검색어를 포함하는 모든 페이지를 찾기 위해 색인을 검색하게 됩니다. 결과는 수십만가지죠. 구글은 200가지가 넘는 질문을 합니다. 어떤 페이지가 검색어를 몇 번 포함하는지, 나오는 곳이 제목인지, URL인지, 또 붙어 나오는지, 페이지에 검색어의 동의어가 나오는지, 나오는 페이지가 양질의 웹사이트인지, 질이 낮거나 혹시 스팸인 페이지는 아닌지, 페이지의 PAGERANK는 어떤지 등을 확인해서 검색자가 원하는 문서 몇 장으로 압축해서 보여줍니다.

구글 창립자인 레리 페이지와 세르게이 브린이 고안한 공식입니다. 연결된 외부 링크의 수와 그 링크의 중요성 등을 조사해서 한 웹페이지의 중요성을 평가한 것입니다. 마지막 단계로 종합평가하여 평점을 매기고 검색결과를 내보냅니다. 이 과정이 약 0.5초 걸립니다. 구글은 유용하고 공정한 검색결과 모두에게 제공합니다. 돈 받고 사이트를 색인에 추가해 주는 일 없습니다. 업데이트를 자주해 순위를 높여주는 일 없습니다. 

구글에서 검색한 결과 유사한 페이지도 있고 관련 검색어도 표시되어 있습니다. 구글은 광고 비즈니스도 중요하게 생각합니다. 광고주에게 가능성 큰 잠재고객을 연결하고 사용자에게는 원하는 광고만 표시하려고 합니다. 양방향으로 노력합니다. 광고를 일반 검색결과와 차별해서 표시하려고 신경을 씁니다.  원하는 정보를 찾지 못한다면 차라리 광고를 표시하지 않으려고 합니다. (동영상의 요약은 여기까지 입니다)^^


우리는 가능성에 겨우 1퍼센트밖에 도달하지 못했다

- 래리 페이지 (구글 창업자, 알파벳 CEO) -


# 규모가 계속 커지는 도서관과도 같은 Web 공간, 검색 비즈니스

검색 최적화에 대해 알아보다가 구글의 크롤링 및 색인 생성에 관한 동영상을 보게 되었어요. 조금은 궁금증이 해소되었습니다. 검색 최적화의 요점은 별거 없었어요. 블로그 상단에 Mata 값을 잘 설정하고, 좋은 글을 꾸준히 쓰며, 커뮤니케이션을 잘하라였습니다. 간단하지요? ^^; 블로그의 글이 최적화를 시키는 것이 아니라는 점, 데이터에 의한 데이터로 블로그가 최적화 된다는 점입니다.  검색봇이 티스토리에서도 자주 잡히더라고요. 네이버검색봇이었어요. 매일 수십번 방문해서 확인합니다. 블로그의 특징을 정리해서 보여주는 것이 곧 블로그의 최적화입니다.

블로그 마케팅은 매우 어렵다고 합니다. 저는 6개월 집중해 보고 판단하려고 생각하고 있어요. 비즈니스의 수익내기 위해서 제공되는 것들이 사람들이 어떤 문제를 해결하고 싶어하는지를 알아내는 것, 브랜드와 제품을 차별화시켜 선호하게 하고 '그것'을 찾아내는 것이고, 곧 마케팅의 핵심입니다. (수익형) 블로그라면 정보 충족이 우선시가 되어야 겠지요. 그 키워드의 전문성이 부족하다는 결론이 나옵니다. 작아지게 만드는 점이네요. 역시 공부하면서 블로그 시작했지만.. 어렵습니다. 

구글에 대해 알수록 참 재밌는 기업이란 생각이 듭니다. 안드로이드의 공용화가 결국 더 사용을 늘릴 수 있었던 계기였던 만큼 기업 마인드가  참 마음에 듭니다. 검색했을 때 충분하지 않았다고 판단되면 오른쪽과 상단의 광고도 뜨지 않게 한답니다. 돈을 받고 검색상위에 올려준다거나 검색의 상위 노출이란 권력화가 없습니다. 참 비교가 안될 수가 없네요.. 제가 지금 읽고 있는 토마스 슐츠가 쓴 <구글의 미래>를 두서없이 읽어 다시 차근히 읽어봐야 하는데요. 구글이란 회사를 알수록 참 대단하다는 생각을 하게 했습니다. 실패가 없었던 것도 아니지만, 그들의 발상이 참 좋았습니다. 


# 정보의 투명성

구글은 오랫동안 자신들이 수집한 정보를 어떻게 처리하는지 명백하게 설명하지 못했습니다. 최근 들어 투명성에 대해 많은 노력을 기울이고 있다고 합니다. 기본적으로 구글은 모든 사용자의 기록을 다 저장합니다. 사용자의 루트를 모두 기억해 두는 것이죠. 어디에서 어느 콘텐츠를 보고 클릭했는지 등등이요.(사용자는 사생활 보호 설정을 바꾸거나 자신의 위치가 저장되는 것을 금지해 부분적으로 노출을 막을 수 있습니다) 

구글이 수집하는 정보는 광고 사업의 동력입니다. 개별적이고 각자의 기호에 맞는 광고를 제공하기 위해 사용자의 정보를 사용합니다. 원칙적으로 이름이나 이메일 주소처럼 사용자 정체가 드러나는 정보는 판매하지 않습니다. 통계를 내는 것이라고 봐야할까요? 아무튼 분명한 것은 여러 구글 제품과의 상호작용을 통해 구글이 사용자들의 자세한 프로필을 꿰뚫어 볼 수 있다는 사실입니다.

구글이 사업을 하려면 인터넷 플랫폼이 안전하고 효율적이어야 합니다.  구글은 사람들이 두려워하는 모든 곳의 상징이 되기도 하지요. 예를 들어 인공지능 기계등장과 총체적 감시체계, 구글 글래스의 사생활 혁명 미국기업의 거대한 독점 및 지배 현상등입니다. 구글이 벌이는 사업에 대한 불안감에 다른 기업이나 나라에서 민감하게 반응하고 있습니다. 논쟁의 중심에 서 있지만, 구글이 냉철한 지성을 갖춘 기업임을 잊지 않아야 할 것입니다. 인터넷은 역사상 무정부주의를 실험할 수 있는 커다란 장입니다.  사생활을 보호하는 동시에 인류가 큰 규모로 발전해 나가도록 허락하는 것입니다....-<구글의 미래>에서 발췌 요약함.-

추천정보


반응형

댓글