검색엔진 최적화를 고려할 때 robots.txt는 기본이 되는 설정 중 하나입니다.
검색엔진이 웹사이트를 어떻게 탐색(크롤링)하고 어떤 페이지를 수집할지를 지시하는 역할을 합니다.
잘못된 설정은 검색 누락이나, 의도치 않은 페이지 노출로 이어질 수 있습니다.
robots.txt란?
robots.txt는 웹사이트 루트 경로에 위치한 텍스트 파일입니다.
이 파일을 통해 검색엔진 로봇(bot)에게 어떤 페이지는 크롤링 허용하고, 어떤 경로는 차단할지를 지정할 수 있습니다.
예를 들어 내부관리 페이지, 테스트 페이지 등은 검색엔진에 노출하지 않도록 제외할 수 있습니다.
왜 설정이 필요한가요?
사이트 전체를 크롤링하게 두는 것도 가능하지만, 불필요한 페이지까지 검색에 노출될 수 있습니다.
검색엔진이 페이지를 수집할 때 우선순위와 효율성을 고려하므로, robots.txt 설정은 사이트 품질에도 영향을 줍니다.
특히 다음과 같은 경우 설정이 필요합니다:
- 관리자 페이지, 로그인 화면 등 외부 노출이 불필요한 경로
- 중복 콘텐츠 또는 테스트용 페이지
- 검색엔진 크롤링 트래픽을 줄이고 싶을 때
robots.txt 기본 구성 예시
모든 검색엔진에 모든 페이지를 허용하는 기본 설정:
User-agent: *
Disallow:
/admin 경로는 차단하고 나머지는 허용하는 예:
User-agent: *
Disallow: /admin/
사이트맵 경로를 명시할 수도 있습니다:
Sitemap: https://www.example.com/sitemap.xml
설정 방법
1. 텍스트 파일로 robots.txt 작성
2. 웹사이트 루트 디렉터리(ex. https://www.example.com/robots.txt
)에 업로드
3. 구글 서치콘솔의 ‘robots.txt 테스터’ 도구를 활용해 오류 여부 확인
주의할 점
- robots.txt는 검색엔진이 페이지를 수집하지 않도록 지시할 뿐, 해당 페이지가 완전히 비공개 처리되는 것은 아닙니다.
- 민감한 정보(예: 개인정보 페이지)는 robots.txt가 아닌 서버 인증, 비밀번호 보호 등을 활용해야 합니다.
- Disallow 설정을 잘못하면 전체 사이트가 검색 누락될 수도 있으므로 주의가 필요합니다.
robots.txt는 간단한 텍스트 파일이지만, 사이트 전체의 검색 노출 전략에 큰 영향을 줍니다.
검색엔진에 보여줄 페이지와 숨길 페이지를 명확히 구분하고 싶다면, 적절한 설정이 반드시 필요합니다.
