robots.txt 파일은 사이트에서 크롤러가 접근할 수 있는 URL을 검색 엔진 크롤러에게 알려줍니다. 요청으로 사이트가 과부하되는 것을 막기 위해 주로 사용됩니다. 이 파일은 웹 페이지가 구글에 표시되는 것을 막기 위한 방법이 아닙니다. 구글에 표시되는 것을 막기 위해서는 noindex
로 색인 생성을 막거나 페이지를 비밀번호로 보호해야 합니다.
robots.txt의 용도는 무엇인가?
robots.txt 파일은 주로 사이트의 크롤러 트래픽을 관리하는 데 사용됩니다. 그리고 일반적으로 구글에 파일이 표시되는 것을 막기 위해 사용됩니다.
robots.txt는 파일 타입에 따라 다른 영향을 미칩니다.
-
파일 타입이 웹 페이지인 경우
robots.txt 파일을 웹 페이지(HTML, PDF, 혹은 구글이 읽을 수 있는 미디어가 아닌 것들)를 위해 사용할 수 있습니다. 서버가 크롤러의 요청으로 과부하가 될 것으로 생각된다면, 크롤링 트래픽을 관리할 수 있습니다. 혹은 사이트에서 중요하지 않거나 비슷한 페이지에 대한 크롤링을 피할 수 있습니다.
웹 페이지가 robots.txt에 의해 차단되었더라도 그 URL은 여전히 검색 결과에 나타날 수 있습니다. 하지만 그 검색 결과는 설명을 가지지 않을 것입니다. 그리고 이미지, 비디오, PDF 및 HTML이 아닌 파일이 제외될 것입니다. 페이지를 검색 결과에서 완전히 숨기고 싶다면, 다른 방법을 사용해야 합니다.
-
파일 타입이 미디어 파일인 경우
robots.txt 파일을 이미지, 비디오, 오디오 파일이 구글 검색 결과에 표시되는 것을 막기 위해 사용할 수 있습니다. 하지만 이것이 다른 페이지 또는 사용자가 사이트의 이미지, 비디오, 오디오 파일로 연결하는 것을 막지는 못합니다.
-
파일 타입이 리소스 파일인 경우
robots.txt 파일을 중요하지 않은 이미지, 스크립트, 스타일 파일과 같은 리소스 파일을 차단하는 데 사용할 수 있습니다. 하지만 이 리소스 파일들의 부재가 구글의 크롤러가 페이지를 이해하기 어렵게 만든다면, 그것들을 차단하면 안 됩니다. 이런 경우에 차단하게 되면, 구글은 리소스에 의존하는 그 페이지를 제대로 분석할 수 없게 됩니다.