검색봇 인덱스 범위 설정

2014.10.13 17:59

jurohan 조회 수:654

시범운영중인 11개의 페이지로의 고정적인 유입량이 크진 않지만 발생하기 시작했고,

검색엔진에서도 주소를 검색하면 하나 둘 페이지와 관련된 검색결과들이 노출되기 시작했다.


내부 레퍼러분석 결과 봇의 활동이 보이기 시작했고.. 구글 검색결과를 보다보니,

사이트 생성과정과 관련된 페이지, 관리자 페이지 등의 URL도 인덱싱되어 노출되고 있었다.

일단 이렇게 비 공개성 페이지 중 인덱스 되어 검색결과로 보여지는 페이지들부터 안보이도록 하는 게 필요하다는 생각이 들었다.

(실제 접근을 하려면 로그인 정보가 있어야 하기에 튕기지만.. 검색을 통해 유입된 사용자에겐 부정적인 인식을 줄 수 있으니..)


출근 후 두가지 처리를 통해 봇들의 행동에 제약을 두도록 하였다.

robots파일에 비공개가 필요한 url에 대한 검색 예외 처리 (https://support.google.com/webmasters/answer/6062608?hl=ko),

그리고 일부 robots.txt파일을 무시하는 봇에 대해

<head>부분에 noindex 메타태그 추가 (https://support.google.com/webmasters/answer/93710).


이 두부분은 html정도만 아는 사용자이며,

사이트를 관리할 수 있는 기본적은 능력만 된다면.. 누구나 쉽게 할 수 있다.


intropage_robot1.jpg

구글에서 제공하는 웹마스터 도구 https://www.google.com/webmasters/ 에 접속하여,

인식코드파일과 robots.txt 파일을 ftp를 통해 서버에 업로드 하고 나서, robots.txt 작성에 도움을 주는 코드 창이 열리고

이곳을 통해 작성 코드가 문법상 맞는지 체크할 수 있고, 문제가 없으면, 코드 에디터에 해당 내용을 붙여넣고 업로드한 후,

제출 버튼을 누르면 나온는 항목들중 구글에 업데이트요청버튼을 누르고 몇초 후 새로고침하면, 변경된 코드가 읽힌 것을 확인할 수 있다.

이후 인덱싱에서 제외할 주소를 작성후 테스트 버튼을 누르면, 현재 봇의 검색이 가능한 상황인지 차단된 상황인지 볼 수 있다.

검색엔진에 노출시키지 않을 페이지에 대해서는 Disallow : 주소 형태로 입력하면 되는데,

콤마로 여러개를 입력하진 못하고, url별로 입력해주거나 상위 구분 폴더명으로 입력해주면, 하위 페이지에대해서는 모두 차단되는 것을 확인할 수 있다.

ex) /img/abc.jpg,/img/abc2.jpg  의 경우 /img 만 입력하면 하단의 모든 세부 URL에 대해 막아준다.


구글의 검색봇 안내페이지(ttps://support.google.com/webmasters/answer/6062608?hl=ko)에서도 이야기하듯, 이를 통한 완벽한 차단은 안되니..

bot에 대한 메타태그를 <head>영역에 추가해야 하며, 특정 사용자에게만 노출되는 페이지의 경우 세션과 변수등을 통해 꼭 접근을 차단해야할 필요가 있다.

intropage_robot2.jpg

intropage는 일단 세션과 변수만으로 가장 기본적은 차단을 했었지만..

검색엔진에 대한 대응부분은 신경쓰지 못한 부분이었는데,

이 처리를 통해 비공개형 페이지의 url 정보의 노출에 대해서도 이제 차단할 수 있게 되었다.

30분도 안걸리는 작업량이지만 이런 작은 부분도 이제는 슬슬 채워나갈 시간 :)


© juroweb 2003-2014. All rights reserved
log in