IT정보2013. 1. 2. 21:32
방대한 웹페이지를 두루 방문하여 각종 정보를 자동적으로 수집해오는 프로그램으로, 검색엔진의 근간이 된다.


웹크롤러·스파이더(spoider)·로봇·웹수집기·로봇에이전트 등 다양한 이름으로 불린다. 인터넷에서의 정보검색시스템은 정보수집·정보가공·정보제공의 세 가지 기능으로 구성되는데 정보수집은 크롤러, 정보가공은 인덱서(indexer, 문서색인기) 그리고 정보제공은 사용자 인터페이스가 맡게 된다. 사람들이 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 방대한 자료를 검색하는 특징은 있으나 로봇의 검색 기능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다.


인터넷포털사이트에서 정보검색 서비스를 제공하기 위하여 운영하는 검색엔진은 수많은 웹페이지에서 다양한 정보를 수집해오는 크롤러(crawler)라는 프로그램과 크롤러가 수집하는 정보를 검색하기 쉬운 형태로 가공한 후 색인을 만들러 서버에 보존하는 인덱서, 사용자가 특정 검색어를 입력하면 쿼리(query:데이터를 조회하기 위한 명령)를 통해 인덱서 서버 안에 축적되어 있는 정보를 꺼내어 검색결과를 제공하는 시스템으로 구성되어 있다.


크롤러(crawler)란 사전적으로 ‘기어가는 사람’ 또는 ‘포복동물’이라는 의미로, 방대한 수의 웹페이지(웹사이트)를 두루 돌아다니며 웹문서의 위치(URL)와 링크정보, 문서내용 등 각종 정보들을 수집해오는 기능으로 인하여 이런 이름이 붙었다. 검색엔진의 근간이 되는 크롤러가 수행하는 작업은 크롤링(crawling) 또는 스파이더링(spidering)이라고 부른다. 종류로는 앤츠(ants)·보츠(bots)·웜즈(worms)·웹스파이더(web spider)·웹로봇(web robot)·웹스쿠터(web scooter) 등이 있다.


크롤러는 사용자가 웹페이지의 각 링크를 일일이 따라가 정보를 얻는 작업을 대신하여 자동적으로 웹서버를 순회하며 웹페이지의 내용을 분석하고, 그 안에 포함되어 있는 URL들을 추출한 후 그 URL들로 하나씩 이동하면서 텍스트·수치·그림·멀티미디어 정보 등 수많은 정보를 수집하게 된다.



출처 -  두산백과



'IT정보' 카테고리의 다른 글

동기와 비동기  (0) 2013.02.05
정규 표현식(Regular expression)  (0) 2013.01.10
빅데이터(BigData)  (0) 2012.12.27
2011-1 표쥰용어  (0) 2012.07.06
2011-2차 정보통신표준용어  (0) 2012.06.28
Posted by 건깡