로봇 배제 표준

 

로봇 배제 표준. 1994년 6월 만들어진 로봇 배제 프로토콜은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.

이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 

따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다.

 

robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다. ex) http://www.aaa.com/robots.txt

 

robots.txt 의 파일 구조

User-agent: [크롤러 이름 또는 *]
Disallow: [접근 제한할 경로]
  • User-agent: 크롤러의 이름을 명시하며, 여기에 지정된 크롤러만 해당 규칙을 적용받는다. *는 모든 크롤러에게 적용됨을 의미한다.
  • Disallow: 특정 크롤러가 접근하지 말아야 할 경로를 명시한다. 디렉토리 경로 또는 파일 경로를 지정할 수 있으며, 여러 경로를 설정할 때는 여러 개의 Disallow 지시문을 사용한다.

 

예시

User-agent: *
Disallow: /admin/
Disallow: /private/

해당 예시에서는 모든 크롤러(*)가 /admin/과 /private/ 경로의 페이지를 크롤링하지 말아야 한다는 규칙을 설정했다.

 

주의사항

  • 반드시 대소문자 구분: User-agent와 Disallow 지시문은 대소문자를 구분한다.
  • 효과적인 보안 도구는 아님: robots.txt는 검색 엔진과 같은 잘 따르는 크롤러에게만 효과가 있으며, 악성적인 크롤러나 해커로부터 웹사이트를 보호하기 위한 완전한 해결책이 아니다.
  • 검색 엔진에 의해 해석됨: robots.txt 파일은 검색 엔진에 의해 읽혀지고 준수될 수 있으며, 일반적으로 잘 알려진 검색 엔진들은 이 파일을 존중하여 웹사이트를 크롤링한다.

로봇 배제 표준은 웹사이트 운영자가 웹 크롤러에 의한 자원 소모를 관리하고, 중요한 정보가 포함된 페이지가 노출되지 않도록 하는 데 유용한 도구이다.

 

해당 사이트에서 유명 웹 사이트들의 robots.txt를 열람해볼 수 있다.

https://senarin.kr/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80

 

로봇 배제 표준

로봇 배제 표준(Robots exclusion standard, 사용되는 파일명인 robots.txt로 더 잘 알려져 있다.)는 웹 크롤러와 그와 비슷한 자동화된 클라이언트(로봇)들의 접근을 제어하기 위한 규약이다. 권고 사항이

senarin.kr

 

 

'업무' 카테고리의 다른 글

용어 정리 #1  (0) 2024.08.19
Option 메소드  (0) 2024.07.13
JNDI 인젝션  (0) 2024.05.29
X-Forwarded-For(XFF)  (0) 2023.11.30
에러코드 정리  (1) 2023.11.30