반응형 큐레이션1 검색의 원리(색인, 랭킹, 평판과 큐레이션) # 검색은 도대체 어떻게 가능한 것일까?01. 색인1) 재료 수집 단계다. 이 단계를 크롤링crawling이라고 한다. 크롤링crawling 벌레가 기어다니면서 뭔가를 주워 담듯이 문서를 수집하기 때문에 크롤러라는 이름이 붙었다. 링크를 따라다니며 문서를 주워 담는다. *웹상에서 한 번 도 다른 문서에 링크된 적이 없는 문서라면 기본적으로 수집되상이 되지 않는다.수집하는 문서의 개수는 수억 건 이상이다. 어마어마한 양의 문서를 수집하기 때문에 그것을 적절히 쌓아두는 일 자체가 꽤나 버거운 작업이 된다. 2) 재료의 껍질벗기기다. 이 단계를 파싱parsing이라고 한다. 파싱parsing 수집한 문서에 제목, 본문, 주제어 등 필요한 요소들만을 추출하고 나머지 노이즈를 제거한다. 본문에 링크나 이미지가 있.. 2016. 11. 2. 이전 1 다음 반응형