[구글워크 03] 구글검색엔진과 구글봇

2012. 8. 16. 15:21구글강좌




[구글워크 03] 구글검색엔진과 구글봇





    구글 검색엔진은 색인서버와 문서서버에 저장된 정보을 통해 사용자들이 찾고자 하는 정보을 제공해 준다.  물론 개인사용자들이나 포털사이트의 정보들이 업데이트되었다면 빠르게 업그레이드하여 제공해준다. 


   사용자들이 업그레이드한 정보을 빠르게 반영할 수 있도록 해주는 역할을 하는 것이 바로 구글봇이다.  구글봇은 인터넷을 돌아다니면서 웹을 두져 새로 올라온 정보나 웹페이지들을 찾는다.  웹페이지에 있는 링크을 타고 다니면서 자료을 수집한다.  수집된 정보는 구글의 색인서버와 문서서버에 저장된다. 


   구글봇이 여러분들의 사이트에 방문하였다면 여러분의 모든 페이지를 찾아다니면서 페이지정보을 읽어드린다.  페이지속에 있는 링크를 타고 다니면서 정보을 수집하면서 이 모든 정보들을 구글서버에 보내고 색인시켜나간다.


    구글봇이 검색하고 수집한 데이터베이스는 색인과 문서서버을 저장되고 저장된 페이지는 검색결과 페이지 요약정보를 만든다.  구글링시 간혹 만나게 되는 저장된 페이지를 보게 되면 이것이 바로 구글봇이 돌아다니면서 수집한 정보들이 모여놓은 업적(?)이라고 생각하면 된다.


    구글봇이 검색엔진에게 있어서 없어서는 안되는 존재이지만 사용자입장에서 무조건 반가워할 것은 못된다.  간혹 구글링하다면 개인정보들이 검색되는 경우가 있다.  이로인해 개인적으로 사회적으로 문제가 되는 경우를 보게 되는데 구글봇에 의해 문제가 발생할 수 있기 때문이기도 하다.


    기업이나 개인들이 만든 홈페이지나 블로그을 운영하면서 주의해야 할 것은 보여주어야 할 정보와 숨겨야 할 정보들이 있기 마련이다.  구글봇을 통해 기업정보을 외부로 노출할 수 있기도 하지만 역으로 기업기술정보가 외부로 노출될 수 있으므로 주의해야 한다. 


    구글봇이 자신의 블로그나 홈페이지에 대해 무단으로 들어오지 못하도록 하고자 한다면 서버에 robot.txt을 통해 예방할 수 있다. 자세한 내용은 구글러( http://googler.pe.kr )블로그에서 robot.txt을 검색하면 사용방법을 확인할 수 있다.



구글러 robot.txt 검색결과 :


http://googler.pe.kr/wordpress/index.php/search/robot.txt/




구글에 검색되어지는 개인정보을 삭제하는 방법 :

http://googler.pe.kr/wordpress/index.php/archives/827