3장 - 저작자표시

오랜 암흑기:

구글 없이 검색 하던 시절

오늘날, 당신이 ‘윌리엄 셰익스피어가 왜 중요한 사람인가 요?’라고 구글에 타자를 친다면 당신은 겨우 0.63초 만에 수 십만 개의 검색 결과를 볼 수 있을 것이다. 그리고 모든 결 과는 중요성에 따라 정렬된다. 식은 죽 먹기다. 그렇지 않은 가

그렇지 않다!

마음의 준비를 해라. 타임머신을 타고 가는 이번 여행은 꽤나 흔들릴 예정이니 말이다.

구글이 없던 시절, 사람들은 검색 결과가 의미가 없던 시절에 살고 있었다. 당신 이 검색 엔진에 들어가 ‘셰익스피어’ 같은 단순한 키워드를 쳐야한다. 왜냐하면 검 색 엔진은 대화문 형식은 다룰 수 없기 때문이다. 당신이 셰익스피어의 고향이 궁 금하다면 윌리엄의 성까지 쳐야 결과를 볼 수 있다.

대화 텍스트는 여러분이 말할 수 있는 것과 같은 방식으로 들리는 구절이나 문장이다. 당 신의 생각과 질문에 대한 격식 없고 자연스러운 표현이다.

당신은 새로 고침을 누르고 결과들이 특정한 순서 없이 로딩 될 때 까지 기다린 다. 사실, 당신이 찾고 있던 정보는 가장 최근 결과, 혹은 중간 어딘가에서 발견될 지도 모른다. 더 최악인 것은, 한 시간 검색 활동 동안 당신은 여러 번 소리 지르 고 싶을 순간이 생긴다는 것이다. 당신이 계속해서 다른 키워드를 여러 번 쳐야하 기 때문이다. 당신은 소리를 지르고 싶지만 속삭이지 조차 못할 것이다.

문제가 뭘까? 인터넷 검색은 키워드를 기반으로 했다. 만약 당신이 말(馬)에 대 한 정보를 찾는다면, 웹 검색은 당신에게 말이라는 단어를 언급하는 모든 사이트를 제공할 것이다. 그리고 당신은 가만히 앉아 당신이 필요로 하는 정보를 찾으면서 각각의 결과를 기다려야 할 것이다.

사서는 그 단어가 포함된 모든 책, 잡지, 책자를 당신에게 가져다준다. 그러고 나 서 그 사서는 그것들을 아무렇게나 뒤섞은 책 더미에 던지면 당신은 원하는 것을 찾을 때 까지 뒤진다. 이 과정이 바로 구글 이전의 검색이었는데, 감히 누구도 함 부로 꺼내지 못했던 기억이었다. 우리에게 필요한 것은 이 정보를 정리하는 방식이 었다.

페이지 랭크(PageRank)

세르게이 브린의 수학에 능한 두뇌는 링크를 분석하고 웹 페이지의 순위를 매기 는 알고리즘에 대한 완벽한 능력을 가졌다. 그것은 마치 대표 요리의 조리법 같았 다. 그리고 래리와 세르게이는 이 특별한 자료를 페이지랭크라고 이름 지었다.

단어 페이지랭크가 익숙하지 않은가? 래리와 세르게이는 래리의 성(姓)인 페이지에서 따 온 이름이다.

당신이 ‘스타워즈: 깨어난 포스’에 대한 웹페이지를 신설했다고 가정해보자. 알고 리즘이 어떻게 당신의 사이트와 StarWars.com의 사이트 간의 차이를 알 수 있는 가? 어느 사이트가 더 관련이 있는가? 더 믿을 만한가? 주제에 더 중요한가?

답은 백링크 안에 있다. 당신이 들인 공만큼 당신의 팬 사이트에 접속하는 사람 은 많지 않을 것이다. StarWars.com은 내부 특종, 게임, 비디오, 뒷이야기, 스포 일러 등을 제공한다. 반면에 당신의 팬 사이트는 그 영화가 당신에게 얼마나 깊은 인상을 주었는지에 대한 하나의 글 정도 올렸을지도 모른다.

페이지랭크는 수신 링크 수에 따라 어떤 사이트가 더 중요한지 결정할 수 있다.

그리고 이제 어려운 문제에 봉착한다. 중요성은 당신의 사이트를 가리키는 링크의 수만이 아니라 참조 링크가 받는 링크의 수에 의해 결정된다.

특정 페이지에 페이지랭크 점수를 매긴 후 세르게이는 또한 키워드, 대문자, 글 꼴 크기, 페이지의 단어 사이의 거리 등과 같은 요소들을 분석하는 방법을 알아냈 다. 이러한 요소들을 신호라고 부른다. 이 모든 신호를 분석하는 것은 세르게이가 웹페이지의 관련성에 대해 꽤 명확한 그림을 그리는 알고리즘을 개발하는 데 도움 이 되었다.

래리가 인터뷰에서 말했다. “우리는 전체 웹을 수억 개의 변수를 가진 큰 방정 식으로 변환하는데, 이것이 바로 연결고리입니다.” 다시 말해서, 웹은 거대하고 복 잡한 수학 문제일 뿐이었다. 래리와 세르게이가 풀었던 것이 바로 이것이었다.

발명가들이 새로운 것을 창조할 때, 그들은 그들의 발명에 대한 특허를 출원한다. 이 서류는 다른 사람들이 발명품을 베낄 수 없도록 그 발명을 보호한다. 페이지랭크는 캠퍼스의 스탠포드 대학 대학원생들이 만든 것이기 때문에, 스탠포드 대학은

페이지링크의 특허를 소유하고 있다. 스탠포드는 이 특허권을 회사의 주식과 교환하는 조건으로 구글에 독점적으로 허가했다. 2005년 이 학교 측이 구글에서 이 180만 주를 팔면서 약 4천억 원 (3억3600만 달러)을 벌어들였다. 괜찮을 거래지 않은가?(잃어버렸던 컴퓨터 값은 번 셈이다.)

https://www.google.com/patents/US6285999에서 특허를 확인해 보아라.

1996년, 래리와 세르게이가 백럽을 배치하여 웹크롤링을 하고 링크들의 색인을 만들고 나서 그들은 페이지랭크를 모아서 모든 웹 데이터를 정리하고 순위를 매겼 다. 결과를 분석하는 동안, 래리와 세르게이는 그들의 프로젝트가 검색 엔진과 비 슷하지만 좀 더 정확한 결과를 얻었다는 것을 깨달았다. 유레카! 그들은 그 미완성 의 결과를 당대 가장 인기 있는 검색 엔진의 결과와 비교했다. 의심할 여지없이 페 이지 랭크의 결과는 단연 최고였다.

웹을 이용하는 다른 평범한 사람들처럼 래리는 백럽에 자신의 이름을 제일 먼저 검색해 보았다.

래리와 세르게이는 그들이 우연히 웹 검색에 획기적인 변화를 일으켰다는 것을 깨달았다.

인터넷 아케이브 웨이백의 백럽원본 스크린샷

개시

백럽에 대한 소식은 캠퍼스에 삽시간에 퍼졌다. 특히 학생들은 매우 신나했다.

당신이 쏟은 만큼의 시간을 보상받을 수 있게 되었다. 무의미한 검색결과를 훑어보 는 시간은 끝났다. 정신이 나갔다. 입이 떡 벌어졌다.

처음으로, 당신은 웹을 검색할 수 있었고, 당신이 찾고 있던 바로 그 정보까지도 빠르게 찾을 수 있었다!

이윽고 만 명의 사람들이 매일 백럽을 사용하고 있었다. 백럽 수요가 급증했다.

그 뿐 만 아니라 웹은 1996년부터 1997년까지 세 배나 되는 엄청난 속도로 성장 하고 있었다.

그것은 래리와 세르게이가 점점 더 확장되는 웹크롤링과 끊임없이 증가하는 양 의 링크를 저장하기 위해 컴퓨터와 디스크 저장장치가 더 필요함을 의미했다.

수요를 맞추기 위해 그들은 컴퓨터, 잡동사니 부품, 선반을 더 가져왔다. 가득 찬 DIY 서버가 그들의 사무실 구석구석을 빠르게 채워졌다. 그 다음은 래리의 기 숙사 방이었다. 그들은 방을 서버로 채웠다. 세르게이도 그의 방을 내줬다. 이제 그 방들이 백럽의 사무실이 되었다.

그러나 래리와 세르게이의 서버 네트워크가 성장함에 따라 어마어마한 양의 전 기 공급이 필요했다. 그들은 잠긴 지하실에 있는 회로 차단기에 접근할 필요가 있 었다. 키(또는 허가)가 없었지만 전혀 문제가 되지 않았다. 세르게이는 도움을 받기 위해 그가 가장 좋아하는 책 중 하나인 자물쇠 따는 MIT 가이드 책을 골랐다.

당신은 다음에 무슨 일이 일어났는지 짐작할 수 있을 것이다. 그들은 지하실로 들 어가 그들의 가득한 컴퓨터 시스템에 전력을 공급했다.

또한, 지하실로 가는 것은 대역폭의 문제라는 또 다른 문제를 해결했다. 그들이 토글 스위치를 한 번 돌리면 백럽은 건물에 할당된 10 Mbps 대신 스탠포드의 전 체 대역폭인 45 Mbps에 접근할 수 있다. 스위치가 다시 연결되었고, 그들은 4배 이상의 대역폭을 가지게 되었다.

그러나 프로젝트에 힘을 더하는 만큼, 래리와 세르게이는 항상 더 많은 힘을 필

켰다. 그들은 스탠포드 대역폭의 절반 이상을 소비했다. 그리고 백럽은 단지 수많 은 전기, 서버 공간, 인터넷 연결을 소비하는 것이 아니라, 래리와 세르게이의 하 루를 소비하게 했다.

충고 하나 하자면

래리와 세르게이가 스탠포드 대학원에 입학했을 때 그 둘은 각각 박사 과정을 해 내는데 학생들을 돕는 지도 교수를 배정 받았다. 학생과 지도교수의 관계는 아주 중요한 관계이다. 그 관계는 아이디어를 내고, 문제를 해결하도록 돕고, 새로운 방 향이나 연구를 위한 아이디어를 얻거나, 여러분의 논제 주제를 승인하고, 앞으로 나올 수 있는 많은 것들(좋은 것들, 나쁜 것들, 어려운 것들)을 얻는 관계이다.

래리는 인간 컴퓨터 상호작용의 선구자인 테리 위노그라드(Terry Winograd)를 지 도교수로 배정받았다. 래리는 위노그라드를 알고 있었다. 래리가 어렸을 때, 그의 아버지는 스탠포드에서 래리와 함께 안식년을 보냈다. 몇몇 교직원들은 아직도 오 래 전의 그 호기심 많던 어린 7살짜리를 기억하고 있었다. 그리고 래리는 테리 위 노그라드를 기억했다.

위노그라드는 래리가 커다란 아이디어와 그것을 실현시킬 수 있다는 믿음을 가지 고 있다는 것을 좋아했다. 래리가 부상하던 월드 와이드 웹(World Wide Web)에 대해 말했을 때, 위노그라드는 그에게 그 주제로 논문을 써보라 권장했다.

1996년 래리는 교수님께 메일로 더 많은 디스크 공간을 얻기 위해 도움을 요청했 다. 웹을 다운로드하는 것은 디스크 공간을 너무 많이 차지하기 때문에 비용이 많 이 들었다. 래리는 위노그라드에게 디스크 공간의 소매가격은 4GB에 천 달러라고 썼다. 래리는 8GB가 필요하다고 적었다. 사실 래리는 그보다 더 많은 GB가 필요 할 것이라고 생각했다. 구글의 첫 번째 서버는 40GB를 사용했다!

위노그라드도 초기 불만사항에 대해 조언을 주었다. 사이트 운영자는 백럽이 그들 의 웹 페이지를 요청하고 있다는 것을 알고 있었지만 사이트를 운영하는 사람들 중 일부는 웹을 요청하는 이유를 이해하지 못했고 또한 그것을 고마워하지도 않았 다.

세르게이의 지도교수는 컴퓨터 과학부장인 헥터 그라샤몰리나(Hector Garcia Molina)였는데, 그는 세르게이의 총명함에 사로잡혔다. 세르게이 역시 스탠포드 교 수인 라지브 모트와니(Rajeev Motwani)로부터 조언을 얻는데 많은 시간을 보냈다.

문서에서 저작자표시 (페이지 30-39)