IT정보2013. 3. 4. 11:09


보안이 필요한 내용이 검색엔진에 유출 되지 못하도록 웹페이지를 작성하는 방법을 기술한 국제기술표준


크롤러 같은 웹로봇을 막을 수 있는 규약입니다.

웹서버의 홈페이지 최상위 디렉토리에 robots.txt 파일을 만들어 사용합니다.

하나robots.txt 만을 가질 수 있으며, "robots.txt" 문자열은 모두 소문자, 공백 허용 X

ex) www.google.com/robots.txt


User-agent :                           // 밑의 규칙을 적용할 로봇이름

Allow :                                   // 수집 허용 페이지

Disallw :                                 // 수집 거부 페이지


ex ) 모든 검색 로봇들에게 노출

User-agent : *

Disallow : 


ex ) 모든 검색 로봇들에게 노출 X

User-agent : *

Disallow : /


ex ) 특정 검색 로봇에게만 노출 X

User-agent : 로봇이름

Disallow : /


ex ) 특정 URL 노출 X

User-agent : *

Disallow : /logs


참고 : http://www.robotstxt.org/

'IT정보' 카테고리의 다른 글

최고의 프로그래밍 폰트는?  (0) 2013.04.29
동기와 비동기  (0) 2013.02.05
정규 표현식(Regular expression)  (0) 2013.01.10
크롤러(crawler)  (0) 2013.01.02
빅데이터(BigData)  (0) 2012.12.27
Posted by 건깡