[구글워크 02] 구글 검색엔진의 구동원리

2012. 8. 16. 14:33구글강좌




[구글워크 02] 구글 검색엔진의 구동원리



    구글은 자신들이 가진 기술을 통해 현금화하는데 성공하였다.  구글의 대표적인 기술인 검색엔진은 오늘날의 구글을 이루는데 밑거름이 되었고 구글이 시도하는 각종 프로젝트을 수행하는데 필요한 재원을 마련하기도 하였다.  구글은 검색엔진을 찾는 사용자들에게 그들이 원하는 정보을 빠르고 정확하게 제공해 주면서 기업의 정보을 함께 제공하여 주므로써 수익을 발생한다. 


    구글은 사용자들이 원하는 정보을 쉽고 빠르게 정확하게 검색할 수 있도록 구글의 웹서버에 저장한 후 사용자들이 원하는 정보들을 제공한다.  구글 서버군에 저장된 엄청난 색인들과 정보들은 웹을 통해 찾지 않기 때문에 우리가 상상할 수 없을 만큼의 속도로 정보을 제공해 준다. 


    구글은 이처럼 웹에서 수집한 정보들을 50만대 이상의 서버를 사용하여 저장해 두었다가 제공하는데 구글의 서버는 구글 웹사이트을 운영하는 웹서버, 대용량 데이터베이스을 저장하는 색인서버, 웹페이지들의 사본을 보관하는 문서서버가 그것이다. 


    개인정보유출로 인해 고통받는 사람들이나 자신의 정보가 유출되었는지를 확인하기 위해 구글링하게 되면 색인서버와 문서서버에 자신의 정보가 있을 확인하게 되고 이를 삭제하고자 할 경우에도 일련의 과정을 통해 정보가 삭제된다.  이것은 국내서비스와 조금 다르다.  국내의 경우에는 색인을 가지고 있다가 사용자들이 원하면 바로 삭제하지만(경우에 따라 다를 수 있다) 구글의 경우에는 원본을 삭제하고 색인을 삭제 한 후에도 저장된 페이지를 삭제하지 않으면 구글링을 통해 검색되어질 수 있다는 것을 의미한다.



구글의 검색원리는 다음과 같다.



1. 사용자가 검색하고자 하는 키워드(검색어)을 입력한 후 검색버튼을 클릭한다.


2. 검색어가 구글 웹서버로 전송된다.


3. 구글 웹서버는 사내 색인 서버로 검색어를 보낸다. 웹페이지 디비 검색에 필요한 색인이 저장된다.


4. 검색어를 구글색인목록과 대조한다. 


5. 검색어를 문서서버로 보내면 모든 웹문서를 구글 디비에 저장된다.


6. 문서서버는 검색조건에 맞는 문서의 일부분으로 검색결과페이지를 생성한다.


7. 문서서버는 결과 페이지를 메인 웹서버로 전송한다.


8. 웹서버에서 인터넷 웹브라우저에 전송하면 검색결과값을 확인할 수 있다.



    구글 검색엔진은 단순히 웹에 있는 정보만을 검색하여 보여주지 않는다 구글 검색엔진은 사용자들이 찾고자 하는 정보들을 색인화하면서 구글봇으로 검색되어진 내용까지 색인화한다. 이를 통해 사용자들이 찾고자 하는 정보을 빠르고 정확하게 제공하고 있다.


    구글의 이러한 방식은 사용자입장에서 보면 눈 깜짝할 사이에 이루어진다.  사용자입장에서는 구글웹페이지에 검색어를 입력하고 검색버튼을 클릭한 순간 바로 검색결과을 확인할 수 있지만 서버에서는 우리도 모르는 사이에 색인화되고 저장되어 져서 우리가 우리는 정보을 제공하고 있다.