• 검색 결과가 없습니다.

현재 하버드 대학의 교수로 있는 Latanya Sweeney는 1997년 당시 MIT박사 과정의 연구에서, 익명 처리된 공개 정보로부터 Massachusetts주지사의 병원진단 기록을 추론해 냈다는 연구결과를 발 표하여 사회적으로 큰 반향을 일으켰다(L. Sweeney, 2000).

현재 미국의 40개 이상의 주에서는 주법에 의해 병원이 환자정보(병 명, 생년월일, 인종, 성별, 우편번호, 내원일자, 비용 등)를 보험회사와 연 구자에게 제공하도록 의무화하고 있다. Massachusetts주에서는 주공무 원의 보험을 담당하고 있는 GIC (Group Insurance Commission; 단 체보험위원회)가 계약 병원으로부터 수집된 환자정보를 익명 처리한 복

사본을 연구용으로 판매하고 있었다. 여기에는 주지사를 포함한135,000 여명에 달하는 주공무원과 그 가족의 병원진원 정보가 포함되어 있다. 당 시의 주지사 William Weld는 Cambridge시에 살고 있다는 사실이 알 려져 있었고, Cambridge시는 시의 투표인 명부를 20달러에 판매하고 있었다. 이 명부에는 투표자의 이름과 주소, 우편번호, 생년월일, 성별이 포함되어 있다. GIC의 데이터에는 주지사와 같은 생년월일을 가진 사람 이 6명, 그 중에 3명이 남성이었다. 이들 남성의 우편번호를 투표인 명부 와 대조하여 주지사의 환자정보를 정확히 추론할 수 있었다.

〔그림 4-1〕 환자정보와 투표인 명부의 개인정보의 결합

Latanya Sweeney는 위의 연구와 같은 시기에 인구조사국이 공개한 1990년 미국 인구조사 요약파일(1990 Census Summary File)을 분석 하여 개인에 관련된 일부 적은 량의 정보만으로도 개개인을 식별할 수 있 다는 결과를 발표하였다. 즉, 다섯 자리의 우편번호, 성별, 생년월일 등의 세 가지 정보만으로도 전 인구의 87%(당시 2.48억 중의 2.16억)에 해당 하는 수의 주민의 개인 식별이 가능하며, 우편번호 대신에 시 군 단위의 넓은 범위의 주소인 지역명을 포함한 {지역명, 성별, 생년월일}의 정보만

으로 인구의 53%(1.32억)의 개인 식별이 가능하다는 것이다. 또한 전인 구의 18%는 더 넓은 범위의 지역인 카운티(County)명이 포함된 {지역 명, 성별, 생년월일}의 정보만으로 식별될 수 있다는 사실을 보였다(L.

Sweeney, 2000).

Sweeney의 연구 결과는 많은 주목을 받으면서 여러 다른 연구에 인용 되었다. 이로 인해 인구조사 결과를 비롯한 건강정보 등 개인의 프라이버 시와 관련된 통계결과를 발표하는데 있어 보다 강화된 프라이버시 보호 대책을 강구하게 하는 계기가 되었다. 또한 개인의 프라이버시 정보의 취 급 행태에도 큰 영향을 미쳤으며, 이때부터 안전하고 효율적으로 개인의 정보를 익명화하는 알고리즘의 연구 개발이 활기를 띠기 시작하였다.

2006년 발표된 다른 연구자의 연구에서도 위와 유사한 경향의 결과를 얻 어내어, 2000년 미국 인구조사의 공개 파일로부터 우편번호, 성별, 생년 월일 등의 세 가지 정보만으로 인구의 63%를 개별적으로 식별할 수 있다 는 것과, 1990년의 데이터로부터는61%의 국민을 식별할 수 있다는 사실 을 보여주었다. 이 새로운 연구에서는 방법론의 차이로 인해Sweeney의 연구결과보다는 다소 수치가 떨어지지만, Sweeney의 연구 결과의 신빙 성과 중요성이 확인되는 또 하나의 의미 있는 연구로 평가되었다 (Philippe Golle, 2006).

최근Sweeney교수는 미국의 인간 지놈 연구 지원 프로젝트인 Personal Genome Project에 익명으로 참가한 지원자 그룹의 익명화된 데이터 샘플에서 40%이상의 이름을 밝히는데 성공하고 이를 통해 , 인터 넷에서 유통되고 있는 유전자 정보로부터 개인의 치명적인 비밀이 누설 될 수 있는 위험성을 알렸다. 유전자 정보는 개인정보 중에서도 가장 기 밀성이 요구되는 센시티브한 것으로 정보유출은 매우 심각한 프라이버시 문제를 일으킬 수 있다. DNA정보를 해독함으로 해서 선천적인 유전병은

물론 특정 질병에 걸릴 확률까지도 유추하는 기술이 확립된 현시점에서 는 본인은 물론이고 가족과 친척까지도 불이익을 당할 수 있는 것이다.

현재 PGP 프로젝트에서는 지원자 2,800여명의 DNA정보가 인터넷 상에 공개되어 연구자들로 하여금 인간 건강과 질병 연구에 활용될 수 있 도록 유통되고 있다. 여기에는 인종, 혈액형, 체중, 키, 등의 기본정보가 포함된 것이 있는 가하면, 유산이나 낙태 경험, 복용 중인 약, 알코올 의 존증, 우울증, 성병 등의 개인 의료정보가 DNA정보와 함께 들어 있다.

Sweeney교수 팀은 이 중1,130명의 익명 데이터를 입수하고 이들 중 579명에 대해서는 우편번호, 성별, 생년월일의 정보를 얻을 수 있었다 (https://my.personalgenomes.org/public_genetic_data). 이와 함 께 일반적으로 입수 가능한 유권자 명부와 다른 인터넷 상의 공개 정보를 바탕으로 241명의 이름을 추론하고, 이를Personal Genome Project 사무국에 조회한 결과 97%가 일치한다는 사실을 확인했다.

Sweeney교수는 인터넷 구글 검색과 연동되어 표시되는 구글의 광고 가 인종적인 편견을 야기한다는 연구 결과를 발표하여 다시 세간의 관심 을 불러 일으켰다. 즉, 아프리카계의 미국인에게 많은 이름을 검색할 때 이와 연관되어 나타나는 광고가 범죄와 관련되거나 연상하게 하는 정보 서비스일 확률이 크다는 것이다.

〔그림 4-2〕 지놈연구의 기본정보와 투표인 명부의 개인정보의 결합

그녀 자신이 흑인인 Sweeney교수는 흑인 여성에게 많은 Latanya라 는 이름을 가진 여성은 Jill이라는 이름의 여성보다 감옥에 있을 확률이 높은 것으로 나타나며, 또한 흑인에게 남성에게 많은 DeShawn、Darnel l、Jermaine이라는 이름은 검색의 81~86%에서 범죄와 연상된 인종 편 견적인 광고가 발생한다는 것이다. 이는 구글의 의도와는 달리 수많은 흑 인 시민과 그들의 이름이 인종차별적 광고와 함께 표시됨으로써 본인들 은 물론 이를 본 고용자들에게 커다란 심리적 영향을 줄 것이라고 Sweeney교수는 지적했다. 그리고 자신들이 인종적 편견과 차별을 받고 있다고 생각하고 있는 흑인학생의 경우가 그렇게 생각하지 않는 학생의 경우보다 지능검사와 학업능력검사의 결과가 낮은 경향이 보인다는 사실 도 상기 시켰다. Sweeney교수의 연구는 인터넷 상에서 빅데이터의 기계 적인 분석을 바탕으로 형성된 논리가 예측하기 어려운 새로운 문제점을 야기할 수 있다는 사실을 드러내 보인 것이다.