로봇 배제 표준. 1994년 6월 만들어진 로봇 배제 프로토콜은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다.
이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다.
따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다.
robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다. ex) http://www.aaa.com/robots.txt
robots.txt 의 파일 구조
User-agent: [크롤러 이름 또는 *]
Disallow: [접근 제한할 경로]
- User-agent: 크롤러의 이름을 명시하며, 여기에 지정된 크롤러만 해당 규칙을 적용받는다. *는 모든 크롤러에게 적용됨을 의미한다.
- Disallow: 특정 크롤러가 접근하지 말아야 할 경로를 명시한다. 디렉토리 경로 또는 파일 경로를 지정할 수 있으며, 여러 경로를 설정할 때는 여러 개의 Disallow 지시문을 사용한다.
예시
User-agent: *
Disallow: /admin/
Disallow: /private/
해당 예시에서는 모든 크롤러(*)가 /admin/과 /private/ 경로의 페이지를 크롤링하지 말아야 한다는 규칙을 설정했다.
주의사항
- 반드시 대소문자 구분: User-agent와 Disallow 지시문은 대소문자를 구분한다.
- 효과적인 보안 도구는 아님: robots.txt는 검색 엔진과 같은 잘 따르는 크롤러에게만 효과가 있으며, 악성적인 크롤러나 해커로부터 웹사이트를 보호하기 위한 완전한 해결책이 아니다.
- 검색 엔진에 의해 해석됨: robots.txt 파일은 검색 엔진에 의해 읽혀지고 준수될 수 있으며, 일반적으로 잘 알려진 검색 엔진들은 이 파일을 존중하여 웹사이트를 크롤링한다.
로봇 배제 표준은 웹사이트 운영자가 웹 크롤러에 의한 자원 소모를 관리하고, 중요한 정보가 포함된 페이지가 노출되지 않도록 하는 데 유용한 도구이다.
해당 사이트에서 유명 웹 사이트들의 robots.txt를 열람해볼 수 있다.
https://senarin.kr/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80
로봇 배제 표준
로봇 배제 표준(Robots exclusion standard, 사용되는 파일명인 robots.txt로 더 잘 알려져 있다.)는 웹 크롤러와 그와 비슷한 자동화된 클라이언트(로봇)들의 접근을 제어하기 위한 규약이다. 권고 사항이
senarin.kr
'업무' 카테고리의 다른 글
용어 정리 #1 (0) | 2024.08.19 |
---|---|
Option 메소드 (0) | 2024.07.13 |
JNDI 인젝션 (0) | 2024.05.29 |
X-Forwarded-For(XFF) (0) | 2023.11.30 |
에러코드 정리 (1) | 2023.11.30 |