본문 바로가기
IT & Online 책장/인공지능 시대

검색의 원리(색인, 랭킹, 평판과 큐레이션)

by 오책방 2016. 11. 2.
반응형
# 검색은 도대체 어떻게 가능한 것일까?

01. 색인

1) 재료 수집 단계다. 이 단계를 크롤링crawling이라고 한다. 크롤링crawling 벌레가 기어다니면서 뭔가를 주워 담듯이 문서를 수집하기 때문에 크롤러라는 이름이 붙었다. 링크를 따라다니며 문서를 주워 담는다. *웹상에서 한 번 도 다른 문서에 링크된 적이 없는 문서라면 기본적으로 수집되상이 되지 않는다.수집하는 문서의 개수는 수억 건 이상이다. 어마어마한 양의 문서를 수집하기 때문에 그것을 적절히 쌓아두는 일 자체가 꽤나 버거운 작업이 된다. 

2) 재료의 껍질벗기기다. 이 단계를 파싱parsing이라고 한다. 파싱parsing 수집한 문서에 제목, 본문, 주제어 등 필요한 요소들만을 추출하고 나머지 노이즈를 제거한다. 본문에 링크나 이미지가 있으면 따로 정히며, 개인 정보라고 할 만한 것들이면 노출되지 않도록 감춘다. 파싱은 정보 가공 과정의 온갖 잡일을 다 포함하는 말이다.


'(비유하자면) 검색 볶음밥의 조리방식이다'

<검색, 사전을 삼키다> 책방 가는 길 CLICK yes 24


3) 본격적으로 볶는일이다. 이 단계를 색인 과정이라 한다. 색인 : 개념사전 문서에서 검색어를 추출하여 그것이 어떤 문서의 어떤 위치에 있는지 하나씩 기록하는 것이다. 어떤 단어가 어디에 있는지 위치 값을 기록해 준다. 수억 건의 문서는 DB 작업이 필요하다. (프로그래머들이 해줌) 모든 책의 색인을 하나로 모아놓고 클릭 한 번에 해당 책의 페이지를 바로 열어볼 수 있게 된 것이다. 

4) 미리 볶아서 따뜻하게 만들어둔 재료 담기, 사용자가 검색어를 입력하는 단계이다. 우리가 검색어를 넣자마자 결과가 나올 수 있는 이유다. 검색은 말 그대로 모든 것이 들어 있는 상자가 되었다.



02.검색의 꽃, 랭킹

구글의 강점은 검색을 검색답게 구현했을 뿐 아니라 랭킹에 혁신적인 방법론을 도입했다. 그것은 페이지랭크pagerank다. 지금은 페이지 랭크를 비롯해 여러가지 요소들을 종합해 점수를 내는 방식으로 검색이 이루어진다. (스팸과 끝없이 싸워야 한다)

색인의 핵심 하나. 최대한 많은 이들의 '좋음'에 가가운 것을 찾기 위해 여러 가지 방법을 동원한다. 아래와 같은 모든 것의 점수를 수식화해서 점수가 높은 문서를 검색 결과의 상위에 올린다. 이것이 바로 랭킹ranking이다. 사람들은 검색 결과 5위 안에 있는 문서들을 주로 본다. 만족스럽지 못하면 두 번째 페이지로 넘어가기 보다 다른 검색어를 넣거나 화를 내며 이탈한다.

<좋은 문서, 좋은 글이란?>

  • 원본 문서

  • 최신 문서

  • 좋은 필자의 문서

  • 좋은 출처의 문서

  • 긴 문서

  • 사람들이 오래 머무른 문서

  • 댓글이 많이 달린 문서

  • '좋아요'를 많이 얻어 낸 문서

  • PC화면과 모바일 화면 양쪽에 모두 최적화된 문서

  • 추천이 많은 문서 (다른이들이 url을 본문에 걸어놓은 글의 원본)


03. 평판과 큐레이션

큐레이션이란 누군가 의도를 가지고 콘텐츠를 배열한 것이다. 어떤 읽을 거리를 상위에 노출 할 것인가라는 측면에서는 비슷하지만 목표가 서로 다르다. 비교적 좋은 문서들을 적당히 나열해서 우연히 정보를 얻게 하는 서비스이다. 검색(알고리즘에 의한  추천)은 기계가 내부 추천 로직을 이용해 결과를 점수로 만들어 나열하는 것이고, 큐레이션(사람손에 더 의존한 추천)은 이용자의 행동 패턴에 대한 신뢰를 기반으로 결과물을 나열하는 것이다.

대다수의 사람들은 여러가지 의미에서 '안전한' 콘텐츠를 소비하길 바라고, 남들이 좋다고 하면 못 이기는  척 넘어갈 준비도 되어 있다. 소비자는 추천을 원할 뿐 광고를 원하진 않는다. 추천 서비스는 어느 순간 자연스럽게 광고판으로 변한다. 광고에 오염되면 점차 신뢰도가 떨어지고, 결국 다른 추천자나 서비스로 대체된다. 

핵심은 언제나 '신뢰도'다. 평판을 관리하지 못하면 살아남을 수가 없다.


<평판의 기준>

  • 신회하는 사람의 추천,
  • 사회적인 명망
  • 논문의 숫자
  • 수강생의 수
  • 베스트셀러 



앞서 크롤링과 색인은 공부하여서 알고 있습니다. 한 번 배우니 다음이 쉽네요. 요즘 카카오톡 검색을 보면 분야별 랭킹을 많이 보더라구요. 제 브런치의 글이 한 번이 링크되면 조회수가 엄청 뛰었습니다. 아마 그런걸 두고 큐레이션이라고 할까요? 검색에 대한 공부도 흥미롭네요. 몰랐던 사실들입니다. 검색이 어떻게 이뤄지는지 그냥 도깨비 방망이쯤이라고 생각했던 제가 참 무지하네요^^;

반응형

댓글