본문 바로가기
반응형

크롤링2

검색의 원리(색인, 랭킹, 평판과 큐레이션) # 검색은 도대체 어떻게 가능한 것일까?01. 색인1) 재료 수집 단계다. 이 단계를 크롤링crawling이라고 한다. 크롤링crawling 벌레가 기어다니면서 뭔가를 주워 담듯이 문서를 수집하기 때문에 크롤러라는 이름이 붙었다. 링크를 따라다니며 문서를 주워 담는다. *웹상에서 한 번 도 다른 문서에 링크된 적이 없는 문서라면 기본적으로 수집되상이 되지 않는다.수집하는 문서의 개수는 수억 건 이상이다. 어마어마한 양의 문서를 수집하기 때문에 그것을 적절히 쌓아두는 일 자체가 꽤나 버거운 작업이 된다. 2) 재료의 껍질벗기기다. 이 단계를 파싱parsing이라고 한다. 파싱parsing 수집한 문서에 제목, 본문, 주제어 등 필요한 요소들만을 추출하고 나머지 노이즈를 제거한다. 본문에 링크나 이미지가 있.. 2016. 11. 2.
커지는 Web공간에서 구글의 검색 원리 # GOOGLE HOW SEARCH WORKS 구글의 검색과정을 알아보려고 합니다. 구글 검색의 원리(http://www.google.co.kr/intl/ko/insidesearch/howsearchworks/crawling-indexing.html) 동영상을 본 것을 옮겼습니다. 웹에서 검색할 때 어떻게 이뤄지는 지 상당히 재밌었습니다. 검색할 때 웹을 검색하는 것이 아니라 웹 색인 검색한는 것이라고 합니다. 웹을 색인으로 기록하는 것이예요. 그 일을 하는 것이 스파이더라 부르는 소프트웨어라고 합니다. 웹 페이지를 가져오는 것으로 시작해 페이지에 연결된 링크를 따라가 새로 가리킨 페이지를 가져오고 각각의 페이지에 있는 링크를 따라가서 새링크를 가져오는 식입니다.크롤링이란, 웹 페이지를 그대로 가져와서 .. 2016. 10. 30.
반응형