수학을 알면 범죄가 보인다
현실의 문제를 해결하는 살아 있는 수학을 만난다
LA에서 연쇄살인이 일어나고, FBI 특수요원 돈 엡스가 사건을 맡지만 수사는 이렇다 할 단서 없이 정체 상태다. 어느 날 지도를 펼쳐놓고 고민하는 그를 보고 동생 찰리가 도와주겠다고 제안한다. 어린 나이에 칼사이 대학(극 중 명칭으로, 물론 ‘칼텍’의 패러디다)의 수학과 교수가 된 동생의 천재성을 인정하면서도 돈은 딱 잘라 거절한다. “수와 관련 있는 사건이 아니야.” 그러나 찰리는 고집스레 말한다. “모든 건 수야.”
많은 사람들이 수학에 흥미를 느끼지 못한다. 여기에는 여러 이유가 있겠지만 수학이란 현실과 동떨어져 있는 학문이라는 인식이 큰 역할을 한다. 결국 수학을 배운다고 우리 현실의 문제를 해결할 수 있는 것은 아니지 않는가? <넘버스〉는 이런 우리의 통념을 뒤엎는다. 일련의 사례를 통해 수학자인 동생 찰리는 어째서 모든 것이 수일 수 있는지를 보여준다.
이 책 〈넘버스〉는 FBI인 형을 도와 범죄사건을 해결하는 천재 수학자의 활약상을 그린 인기 미드 〈넘버스NUMB3RS〉를 바탕으로 DNA 프로파일링에서 디지털 지문 검색, 흐릿한 CCTV 영상의 화질 개선처럼 우리에게 낯익은 기법들은 물론이고, 인공지능 신경망을 이용한 안면 인식 시스템, 통화·구매 내역 같은 자료더미에서 유용한 정보를 걸러내는 ‘데이터 마이닝’, 생물학적 공격이나 전염병의 발생 징후를 조기에 포착해내는 ‘변화시점 탐지’, 통신 감청을 통해 비밀 범죄조직의 핵심 인물을 특정하는 ‘사회연결망분석’ 등 최신 기법들에 이르기까지 경찰, FBI, CIA가 범죄수사에 실제로 활용하고 있는 주요 수학적 기법에 대한 원리와 방법을 알기 쉽게 설명하며 결코 수학이 우리의 삶과 동떨어져 있지 않다는 사실을 보여준다.
흥미진진한 드라마 속 가상의 사건뿐 아니라 드라마보다 더 드라마 같은 실제 범죄사건과 재판들을 통해, 수학이 여러 범죄의 해결과 예방에서 얼마나 중요한 역할을 하는지 알려주며, 인터넷 상거래에서 카지노 도박에 이르기까지 수학이 우리의 실생활과 얼마나 밀접한 관련이 있는지도 보여주어, ‘패턴을 식별하고 분석하고 예측하는 학문’으로서 수학의 경이로운 세계를 더 탐험해보고 싶도록 자극한다.
핫존 – 연쇄범죄의 지리적 프로파일링
지도에 마구잡이로 흩어져 있는 범행장소를 보고 다음번 범행장소를 예측하는 건 아무리 수학천재라도 불가능한 일이 아닐까? 찰리는 마당에서 돌아가고 있던 스프링클러를 예로 든다. 스프링클러가 흩뿌리는 물방울의 패턴을 이용해서 다음번 물방울이 떨어질 곳을 예측할 수는 없지만, 그 출발점 즉 스프링클러가 어디에 있는지는 역추적할 수 있다. 마찬가지로 범행장소의 패턴을 이용해서 다음번 범행이 일어날 장소를 예측할 수는 없지만 살인자가 사는 곳, 곧 ‘핫존’은 알아낼 수 있다는 설명이다. 찰리는 연구실로 돌아와 칠판에 여러 공식과 방정식을 써내려가고, 마침내 다음과 같은 하나의 공식에 도달하여 사건 해결을 돕는다.
수학 공식 하나로 범인을 잡는다는 드라마의 설정은 선뜻 납득하기 어렵다. 슈퍼히어로들의 초능력이 난무하는 SF영화처럼, 천재 수학자인 주인공의 활약을 극적으로 과장한 것이라는 의구심을 지울 수 없다. 그러나 〈넘버스〉 시리즈 전체의 파일럿 에피소드인 ‘핫존’은 스프링클러의 예에서 마지막 반전에 이르기까지 거의 실화에 바탕하고 있다. 실화의 주인공은 캐나다 경찰 출신의 수학자 킴 로스모다. 1991년 그가 열차를 타고 가다 아이디어를 떠올리고 급히 냅킨에 끼적인 것이 바로 ‘로스모 공식’으로 알려진 위의 공식이며, 수사관들이 범인의 심리적 특성을 분석해 특정해내는 ‘심리적 프로파일링’ 기법과 대비해, 연쇄범죄자가 사는 곳을 수학을 이용해 예측하는 로스모의 기법을 ‘지리적 프로파일링’이라 부른다. 그런데 이 공식이 어떻게 범인이 사는 곳을 알려줄까?
연쇄범죄자는 범행장소를 고를 때 특정한 경향을 보인다. 항상 자신의 집과 멀지 않은 곳에서 주로 범행을 저지르지만, 너무 가까우면 불안하기에 자신의 거주지 주변에는 범행을 저지르지 않는 일종의 안전지대, 완충지대를 둔다. 로스모의(그리고 찰리의) 공식은 이러한 범행 패턴을 반영한다. 연쇄범죄자는 정체를 드러내지 않으려고 자기 딴에는 무작위로 희생자를 고르지만, 이 공식은 범인이 사는 핫존을 매우 높은 확률로 말해준다.
통계와 확률이 밝히는 진실과 한계
어느 야간병동의 간호사가 심장정지 환자들을 조기에 발견하고 제때 응급조치하여 여러 생명을 구함으로써 ‘죽음의 천사’라는 명성을 얻는다. 하지만 동료 간호사들은 그녀가 근무할 때 심장정지 사망자가 유독 많다는 의혹을 제기하고, 병원이 진상조사에 착수하지만 전체 심장발작 비율은 다른 병원과 엇비슷한 정도다. 그럼에도 풀리지 않는 의혹은 급기야 법정으로 향하고, 검찰 측 증인으로 통계학자가 나서게 된다.
이것은 드라마 속 이야기가 아니라 1998년 실제로 있었던 ‘미국 정부 대 크리스틴 길버트 사건’의 개요다. 길버트의 기소 여부를 판단하기 위한 사전재판의 쟁점은 간단했다. 그녀가 근무 중일 때 환자가 유의미하게 더 많이 사망했는가? 한두 명 더 사망했다면 우연일 수도 있다. 길버트의 근무시간에 환자들이 그저 좀 더 불운했을지도 모른다. 길버트를 기소하기에 충분할 정도로 ‘유의미한’ 수준이려면 몇 명이나 더 사망해야 할까? MIT의 통계학 교수 스티븐 겔바흐는 이를 검사하기 위해 ‘가설검정’이라는 기초 통계분석을 이용했다.
먼저 그는 길버트가 근무한 18개월 동안 간호사들의 교대근무 횟수와 사망자 수를 조사했다. 총 1641회의 교대근무 중 사망자는 74명이었다. 만일 사망이 무작위로 일어났다면, 임의의 근무시간 중 사망자가 발생할 확률은 1641분의 74, 즉 0.045 정도다. 그중 길버트가 교대근무한 횟수는 257회였다. 만일 길버트가 환자를 살해하지 않았다면, 그녀의 근무시간 중 사망자 수는
즉 11~12명 정도라고 예상할 수 있다. 하지만 실제 사망자는 40명이나 되었다. 이런 일이 일어날 가능성은 얼마일까? 겔바흐의 계산에 따르면, 전체 사망자 74명 중 40명이 길버트의 근무시간에 사망할 확률은 1억분의 1보다 작았다. 동전을 10번 던져 모두 다 앞면이 나올 확률이 1000분의 1임을 감안한다면, 이러한 사망이 자연적으로 발생할 확률이 얼마나 낮은지 짐작할 수 있다.
이러한 결론에 힘입어 사전재판의 대배심원단은 길버트를 기소하기에 충분하다고 판단했다. 하지만 놀랍게도 본 재판에서 연방판사는 이러한 통계적 증거를 법정에 제시해서는 안 된다고 판시했는데, 이것은 또 다른 통계학자 조지 캅의 의견 때문이었다. 사전재판의 목적은 길버트를 용의자로 볼 근거가 있는지를 가리는 것이었고, 겔바흐의 분석은 길버트의 근무시간 중 사망자 수의 증가가 우연한 변동이 아니라는 의혹을 뒷받침했다. 그러나 본 재판의 목적은 그녀가 정말로 이런 사망 증가를 일으켰는가를 판단하는 것이었고, 조지 캅은 통계적 상관관계가 있다고 해서 인과관계가 있다고 말할 수는 없다고 주장했다. 즉 의심스러운 사망이 우연히 발생했을 확률이 1억분의 1이라는 사실이 곧 길버트가 환자들을 죽이지 않았을 확률이 1억분의 1이라는 의미는 아니라는 것이다. 어떤 다른 원인에 의해서 전자의 확률이 발생했을 수도 있으며, 상관관계 뒤에 숨은 변수가 존재할 가능성은 언제나 있기 때문이다. (이러한 이유로 겔바흐의 통계분석은 비록 채택되지 못했지만, 그럼에도 길버트는 종신형을 받았다.)
이미지 화질 개선의 수학
1992년 LA 폭동은 수많은 인명과 재산 피해를 낸 불행한 사건이었다. 사건이 발발하고 불과 몇 시간 되지 않아 TV 시청자들은 앞으로 5일간 벌어질 끔찍한 사태를 상징하는 폭행사건을 목격했다. 일군의 폭도들이 트럭을 세우고 운전사를 끌어내려 집단린치를 가하는 장면을 하늘에서 방송국의 헬기가 여과 없이 생중계한 것이다. 피해자는 두개골이 함몰되고 안구가 튀어나오는 중상을 입었고, 사태가 진정된 후 경찰은 TV 뉴스 비디오를 근거로 용의자들을 체포했다.
문제는 가장 중요한 증거인 그 영상이 소형 카메라로 찍은 탓에 너무 거칠고 흐릿해서 폭행범의 얼굴을 제대로 알아볼 수 없었다는 것이다. 전체적인 체격과 외모는 비슷했지만 다른 폭도들이 아닌 바로 그들이 범인이라고 특정하기에는 부족했다. 이때 검찰 측 증인으로 레오니드 루딘 박사가 나섰다. 그가 설립한 ‘코그니테크’ 사는 군사위성에서 찍은 감시사진의 화질을 개선하는 수학적 기법의 개발로 명성 높았다. 코그니테크 팀은 문제의 영상에서 폭행자 중 한 명의 팔뚝에 있던 흐릿한 자국을 수학적으로 처리하여 식별 가능할 정도로 선명화하는 데 성공했고, 그 자국이 용의자 중 한 명의 팔에 있는 장미 문신과 동일함을 보여주었다.
CCTV 화면의 흐릿한 부분을 컴퓨터로 확대해 선명하게 만드는 ‘이미지 화질 개선image enhancement’ 기술은 CSI 유의 드라마를 통해 우리에게도 친숙한 기술이지만, 포토샵과 같은 프로그램으로 명암과 콘트라스트를 조절하는 식의 단순한 방법이 아니다. 픽셀 하나하나의 색상값을 찾고 경계를 인식하기 위해서는 여러 다항식과 함수, 미적분법을 이용하는 ‘전변동total variation’ 방법이라는, 수치로 이미지를 재구성하는 대단히 복잡한 수학적 과정을 거쳐야 한다.
코그니테크 팀의 화질 개선 기술은 여러 형사재판에서 결정적인 증거를 제공해 유무죄를 가리는 데 도움을 주었을 뿐 아니라, 기름 유출 탐지, MRI 영상을 통한 조직 이상 식별 등에도 기여하고 있다. 또한 최근에는 역사적 논란의 사진들을 분석해 애리조나 주의 유명한 UFO 영상이 사실은 미 공군이 사용한 조명탄이라는 사실과, 케네디 대통령 암살사건에서 수수께끼의 ‘두 번째 총격범’의 정체가 사실은 사진 속 잡티에 불과함을 밝히기도 했다. 오늘날 누구나 손쉽게 할 수 있는 사진 위조뿐 아니라, 우리 눈에 보이지 않는 사진 속 숨은 진실을 되살려내는 작업도 모두 수학에 의해 가능해지고 있다.
베이즈 추론에 의한 미래 예측
어떤 도시에 파란 택시회사(15대)와 검은 택시회사(75대)가 있다. 어느 날 밤, 택시 뺑소니 사건이 일어난다. 택시 90대는 그 시각에 모두 거리에 있었으며, 목격자는 파란 택시였다고 증언한다. 경찰이 그날 밤과 비슷한 조건에서 파란 택시와 검은 택시를 무작위로 보여주자 목격자는 택시 색깔을 5번 중 4번꼴로 맞춘다(나머지 한 번은 파란 택시를 검은 택시로, 검은 택시를 파란 택시로 오인한다). 과연 뺑소니 사건을 낸 것은 어느 회사일까?
우리는 목격자가 5번 중 4번이 정확했으니 파란 택시였을 확률도 5분의 4 즉 0.8이라고 보통 생각한다. 그러나 베이즈 추론은 상당히 다른 진실을 들려준다. 결론부터 말하면, 파란 택시가 뺑소니차일 확률은 9분의 4 즉 0.44에 불과하다. 검은 택시였을 가능성이 더 큰 것이다. 이는 이 도시의 택시가 검은색일 가능성이 파란색에 비해 5배 많다는 ‘사전 확률’을 감안한 결과다. 검증을 위해, 90대의 택시를 차례로 내보내서 목격자에게 색깔을 맞춰보게 해보자. 15대의 파란 택시를 보았을 때 그가 맞출 확률은 80퍼센트이므로, 12대는 ‘파란색’으로 보이고 3대는 ‘검은색’으로 보인다고 말할 것이다. 75대의 검은 택시를 내보내면 그중 20퍼센트를 잘못 볼 것이므로, 15대는 ‘파란색’으로 보이고 60대는 ‘검은색’으로 보인다고 말할 것이다. 목격자가 ‘파란색’이라고 말하는 택시는 총 27대인데, 그중 실제로 파란색인 것은 12대에 불과하다. 즉 뺑소니차가 실제로 파란 택시일 확률은 27대 중 12대, 9분의 4(44퍼센트 정도)인 것이다.
〈넘버스〉 1시즌 13화 ‘범인 추적’에서 찰리가 탈출한 죄수들을 검거하도록 도울 때 이용하는 것이 이러한 베이즈 통계분석이다. 찰리는 무수한 목격자들의 신고 중 어느 것이 정확한 정보이고 어느 것이 잘못된 정보인지 어떻게 판별했을까? 먼저 그는 확실한 정보들로부터(탈출한 죄수 중 붙잡힌 이들의 자백이 있었다) 사전 확률을 할당하고, 물리적 이동거리와 신고자의 신뢰도 등도 고려했을 것이다. 물론 이것은 인간의 판단과 평가에 좌우되는 부정확한 부분이다. 그러나 여기에 베이즈 추론을 수차례 반복 적용하면 수많은 목격담에 확률이 부여되고, 확률이 높을수록 그 목격담이 정확할 가능성도 높아져 점차 인간적 평가의 모호함을 극복하게 된다. 베이즈 분석은 모든 시간, 모든 장소를 동시에 고려할 수 있는 합리적이고 정량적인 방법을 제공하며, 그리하여 찰리는 형에게 자신있게 이렇게 말할 수 있게 된다. “당장 그곳으로 요원을 보내!”
리만 가설과 암호 해독
어느 수학자의 다섯 살 난 딸이 납치된다. 그의 연구실 화이트보드에 쓰여 있는 공식들을 보자마자 찰리는 즉각 그 수학자가 연구하는 것이 ‘리만 가설Riemann hypothesis’임을 알아챈다. 찰리의 설명을 듣고, 납치범 중 한 명의 신원을 알아내자 돈의 머릿속에 사건의 전모가 그려진다. 납치범들은 수학자의 딸을 납치해 그가 발견한 리만 가설의 해법을 털어놓도록 협박한 뒤 은행 컴퓨터에 침투해 수백만 달러를 훔치려는 계획인 것이다. 정말로 리만 가설을 푼다면 인터넷 보안 시스템을 무너뜨릴 만능키를 얻어 전 세계 인터넷 거래를 붕괴시킬 수 있을지도 모른다. 그 위험을 이해하기 위해서는 먼저 현재의 암호체계가 어떤 원리로 작동하는지 살펴보아야 한다.
제2차 세계대전 이후 안전한 암호체계를 설계하는 일은 수학자들의 몫이었다. 암호를 깨기 위해 강력한 컴퓨터로 무장하고 있는 해커들의 공격을 이겨내기 위해서는 암호체계 자체가 대단히 복잡해야 한다. 현대의 암호체계는 대개 암호화 프로그램과 ‘키’(비밀번호)라는 두 가지 요소로 구성돼 있는데, 메시지의 발신자와 수신자가 사용할 키를 미리 합의하여 공유하고 비밀로 유지하는 한 안전하다. 하지만 이 시스템에는 명백한 결점이 있는데, 발신자와 수신자가 최소한 한 번은 만나서 서로 키를 교환해야 한다는 점이다. 인터넷뱅킹이라면 근처 은행을 찾아가서 개인용 키를 받아오면 그만이지만, 지구 반대편의 전혀 만난 적 없는 사람들끼리는 안전하게 전자상거래를 하거나 이메일을 주고받을 길이 없다.
1976년 스탠퍼드 대학의 두 수학자가 ‘공개키 암호화’를 제안하면서 돌파구가 열렸다. 이 시스템에서는 한 개가 아니라 두 개의 키(암호화 키와 해독 키)를 사용한다. A라는 사람이 먼저 두 개의 키를 만든다. 해독 키는 자신이 안전하게 보관하고, 암호화 키는 네트워크 사용자들에게 공개한다. B가 A에게 메시지를 보내고 싶다면, A가 공개한 암호화 키를 찾아서 메시지를 암호화한 다음 A에게 보내면 된다. 다른 사람은 A의 암호화 키를 알더라도 B의 메시지를 해독할 수 없다. 해독용 키는 오직 A만 알고 있기 때문이다(심지어 B조차도 자신의 메시지를 암호화한 뒤에는 해독할 수 없다).
곧 MIT의 세 연구자가 이 아이디어를 실용화할 방법을 찾았다. 컴퓨터를 이용해 150자리의 큰 소수를 찾아내는 것은 어렵지 않다. 또 그런 소수들을 곱해 300자리의 수를 만들어내는 것도 쉽다. 하지만 300자리의 수를 두 개의 소수로 인수분해하는 것은 사실상 거의 불가능하다(현재 가장 빠른 컴퓨터로도 수십 년에서 수백 년이 걸린다). 이에 착안해 그들은 두 개의 큰 소수를 비밀 해독 키로, 두 소수의 곱을 공개 암호화 키로 사용하는 오늘날 가장 널리 쓰이는 RSA 암호체계(세 연구자의 이름에서 땄다)를 만들어냈다. 결국 큰 수를 인수분해하는 효율적 방법을 아직 찾아내지 못한 수학자들의 무능력 때문에 현재 전 세계 인터넷 보안 시스템이 유지되고 있는 셈이다. 어쨌든 RSA 알고리듬이 광범위하게 이용되면서 소수를 찾아내고 큰 수를 인수분해하는 방법에 대한 연구가 활발해졌고, 소수의 분포와 밀접한 연관이 있는 리만 가설이 ‘세상에서 가장 큰 금융 비밀’을 풀 열쇠로 주목받게 되었다.
저자소개
지은이 : 케이스 데블린Keith Devlin
지금까지 30여 권의 저서와 80여 편의 논문을 발표했으며, 수학 대중화의 공로로 피타고라스상, 페아노상, 칼세이건상, 수학공동정책위원회 보도상 등을 수상했다. 주요 저서로 《수학으로 이루어진 세상》 《수학적으로 생각하는 법》 《수학자 피보나치》 《수학의 언어》 《수학의 밀레니엄 문제들》 《수학 유전자》 등이 있다.
옮긴이 : 정경훈
책정보 및 내용요약
미국 CBS TV에서 6시즌 동안 인기리에 방영된 범죄수사물 〈넘버스〉. 주인공은 수학을 무기로 연쇄살인범에서 테러리스트까지 각종 범죄자들을 잡는 일을 돕는다. 〈넘버스〉의 수학은 얼마나 사실일까? 수학을 이용하여 정말로 범죄를 해결할 수 있을까? 이 책은 DNA와 지문 감식에서 안면 인식, 영상 화질 개선까지 현재 경찰, FBI, CIA가 범죄와의 전쟁에서 실제로 이용하고 있는 주요 수학적 기법의 원리를 밝히고 있다. 학교에서 이론적으로만 배우는 수학이 아닌 우리의 생활에 깊숙이 침투해 있는 수학의 실제 응용 사례들을 통해 살아 있는 수학을 만난다.
목차
머리말 수학자가 주인공이라고?
감사의 말
01 핫존 찾기_연쇄범죄의 지리적 프로파일링
스프링클러의 수학 | 사실인가 허구인가? | 로스모 공식의 의미
02 죽음의 천사_기초 통계학으로 범죄와 싸우기
야간병동의 수상한 죽음들 | 두 가지 종류의 통계학 | 가설검정의 놀라운 결과 | 그러나 통계가 결정적 증거는 아니다 | 통계의 함정 | 편향성을 어떻게 판단할 것인가?
03 데이터 마이닝
다량의 정보 속에서 의미 있는 패턴 찾기 | 인간 두뇌와 컴퓨터의 협업 | 연결고리 분석 | 기하학적 군집화 | 소프트웨어 에이전트 | 기계학습 | 신경망 | 신경망 훈련시키기 | 신경망을 이용한 범죄 데이터 마이닝 | 나, 저 얼굴 알아–신경망을 이용한 안면 인식 시스템 | 의심스러운 다자간 통화 추적하기 | 〈넘버스〉에서 선보인 또 다른 데이터 마이닝
04 변화의 조짐은 언제 처음 나타나는가?
야구 통계학의 천재 | 변화시점 탐지 | 생산라인 감시하기 | 수학, 행동을 취하다 | 생물학적 공격을 어떻게 조기에 발견할 것인가
05 화질 개선의 수학
LA 폭동과 레지널드 데니 폭행 사건 | 장미 문신 식별하기 | 눈으로 볼 수 없는 것을 수학으로 재구성하기 | 이미지 화질 개선의 원리 | 비디오 영상의 화질 개선 | 사진은 생각보다 많은 것을 말해준다
06 미래 예측하기
수많은 목격 신고 중 무엇이 진실일까 | 수학으로 미래 예측하기 | 수학은 어떻게 펜타곤에 대한 9/11 공격을 예측했나 | 테러 위험을 예측하는 위치 프로파일러 | 베이즈의 확률 계산법 | 예제: 가상의 뺑소니 사건 | 찰리는 탈출한 살인범을 어떻게 추적했을까
07 DNA 프로파일링
미국 정부 대 레이먼드 젱킨스 사건 | 유전자 일치를 판단하는 방법 | FBI의 코디스 시스템 | 다시 젱킨스 사건으로 | DNA 프로파일링의 수학 | DNA 증거는 얼마나 신뢰할 수 있는가 | 콜드히트 검색의 문제점 | NRC I과 NRC II | DNA 프로파일이 우연히 일치할 확률
08 암호의 제작과 해독
리만 가설의 해법 | www.cybercrime.gov | 암호체계의 간략한 역사 | 소수를 이용한 공개키 암호 | 전자문서와 디지털 서명 | 무엇이 암호를 안전하게 지켜주는가
09 지문 증거는 얼마나 믿을 만한가?
엉뚱한 사람이라고? | 지문이라는 신화 | 전문가는 어떻게 지문을 ‘대조’하는가 | 지문 전문가 대 수학자 | FBI의 지문 실패 사례: 브랜든 메이필드 사건 | 지문 감식에서 수학자가 하는 일은 무엇인가 | 디지털 지문 만들기
10 점 잇기의 수학
사회연결망 분석하기 | 새로운 종류의 전쟁, 새로운 종류의 수학 | 9/11을 통한 사례 연구 | 그래프 이론과 세 가지 중요성 척도 | 무작위 그래프: 거대 연결망을 이해하는 유용한 도구 | 여섯 단계의 분리: ‘작은 세계’ 현상 | 점 잇기의 성공 사례
11 게임이론과 위험분석
죄수의 딜레마 | 수학자들이 게임을 정의하는 방법 | 협력의 메커니즘 | 위험평가와 최선의 전략 | 현실 세계에서의 대 테러 위험분석 | 컨테이너 속 핵무기를 찾는 최적의 방법 | 항공기 승객 사전심사 시스템 | MIT 학생 두 명이 찾아낸 시스템의 허점
12 법정에 선 수학
말총머리 금발의 날치기 사건 | 증거로서의 수학 대 마법으로서의 수학 | 검찰 측의 확률 계산은 왜 틀렸는가 | 19세기의 유명 수학자가 위조를 설명하다 | 배심원 선정에서 수학은 어떻게 활용되는가 | 배심원 프로파일링
13 카지노에서의 수 싸움_수학을 이용하여 시스템 깨기
카드를 세는 사람들 | 블랙잭의 비대칭적 규칙 | 수학자의 비밀 무기–카드 카운팅 | 로든의 이야기: 도박꾼이 파산하지 않을 수 있을까 | 조를 짜서 카지노와 겨루다 | 수학자들이 플레이하는 게임 | 다시 로든의 이야기: 캘리포니아 공대생들이 카지노와 겨루다
부록 〈넘버스〉 첫 세 시즌의 수학적 시놉시스
〈넘버스〉의 주요 등장인물
옮긴이의 말
편집자 추천글
현실의 문제를 해결하는 살아 있는 수학을 만난다
LA에서 연쇄살인이 일어나고, FBI 특수요원 돈 엡스가 사건을 맡지만 수사는 이렇다 할 단서 없이 정체 상태다. 어느 날 지도를 펼쳐놓고 고민하는 그를 보고 동생 찰리가 도와주겠다고 제안한다. 어린 나이에 칼사이 대학(극 중 명칭으로, 물론 ‘칼텍’의 패러디다)의 수학과 교수가 된 동생의 천재성을 인정하면서도 돈은 딱 잘라 거절한다. “수와 관련 있는 사건이 아니야.” 그러나 찰리는 고집스레 말한다. “모든 건 수야.”
많은 사람들이 수학에 흥미를 느끼지 못한다. 여기에는 여러 이유가 있겠지만 수학이란 현실과 동떨어져 있는 학문이라는 인식이 큰 역할을 한다. 결국 수학을 배운다고 우리 현실의 문제를 해결할 수 있는 것은 아니지 않는가? <넘버스〉는 이런 우리의 통념을 뒤엎는다. 일련의 사례를 통해 수학자인 동생 찰리는 어째서 모든 것이 수일 수 있는지를 보여준다.
이 책 〈넘버스〉는 FBI인 형을 도와 범죄사건을 해결하는 천재 수학자의 활약상을 그린 인기 미드 〈넘버스NUMB3RS〉를 바탕으로 DNA 프로파일링에서 디지털 지문 검색, 흐릿한 CCTV 영상의 화질 개선처럼 우리에게 낯익은 기법들은 물론이고, 인공지능 신경망을 이용한 안면 인식 시스템, 통화·구매 내역 같은 자료더미에서 유용한 정보를 걸러내는 ‘데이터 마이닝’, 생물학적 공격이나 전염병의 발생 징후를 조기에 포착해내는 ‘변화시점 탐지’, 통신 감청을 통해 비밀 범죄조직의 핵심 인물을 특정하는 ‘사회연결망분석’ 등 최신 기법들에 이르기까지 경찰, FBI, CIA가 범죄수사에 실제로 활용하고 있는 주요 수학적 기법에 대한 원리와 방법을 알기 쉽게 설명하며 결코 수학이 우리의 삶과 동떨어져 있지 않다는 사실을 보여준다.
흥미진진한 드라마 속 가상의 사건뿐 아니라 드라마보다 더 드라마 같은 실제 범죄사건과 재판들을 통해, 수학이 여러 범죄의 해결과 예방에서 얼마나 중요한 역할을 하는지 알려주며, 인터넷 상거래에서 카지노 도박에 이르기까지 수학이 우리의 실생활과 얼마나 밀접한 관련이 있는지도 보여주어, ‘패턴을 식별하고 분석하고 예측하는 학문’으로서 수학의 경이로운 세계를 더 탐험해보고 싶도록 자극한다.
핫존 – 연쇄범죄의 지리적 프로파일링
지도에 마구잡이로 흩어져 있는 범행장소를 보고 다음번 범행장소를 예측하는 건 아무리 수학천재라도 불가능한 일이 아닐까? 찰리는 마당에서 돌아가고 있던 스프링클러를 예로 든다. 스프링클러가 흩뿌리는 물방울의 패턴을 이용해서 다음번 물방울이 떨어질 곳을 예측할 수는 없지만, 그 출발점 즉 스프링클러가 어디에 있는지는 역추적할 수 있다. 마찬가지로 범행장소의 패턴을 이용해서 다음번 범행이 일어날 장소를 예측할 수는 없지만 살인자가 사는 곳, 곧 ‘핫존’은 알아낼 수 있다는 설명이다. 찰리는 연구실로 돌아와 칠판에 여러 공식과 방정식을 써내려가고, 마침내 다음과 같은 하나의 공식에 도달하여 사건 해결을 돕는다.
수학 공식 하나로 범인을 잡는다는 드라마의 설정은 선뜻 납득하기 어렵다. 슈퍼히어로들의 초능력이 난무하는 SF영화처럼, 천재 수학자인 주인공의 활약을 극적으로 과장한 것이라는 의구심을 지울 수 없다. 그러나 〈넘버스〉 시리즈 전체의 파일럿 에피소드인 ‘핫존’은 스프링클러의 예에서 마지막 반전에 이르기까지 거의 실화에 바탕하고 있다. 실화의 주인공은 캐나다 경찰 출신의 수학자 킴 로스모다. 1991년 그가 열차를 타고 가다 아이디어를 떠올리고 급히 냅킨에 끼적인 것이 바로 ‘로스모 공식’으로 알려진 위의 공식이며, 수사관들이 범인의 심리적 특성을 분석해 특정해내는 ‘심리적 프로파일링’ 기법과 대비해, 연쇄범죄자가 사는 곳을 수학을 이용해 예측하는 로스모의 기법을 ‘지리적 프로파일링’이라 부른다. 그런데 이 공식이 어떻게 범인이 사는 곳을 알려줄까?
연쇄범죄자는 범행장소를 고를 때 특정한 경향을 보인다. 항상 자신의 집과 멀지 않은 곳에서 주로 범행을 저지르지만, 너무 가까우면 불안하기에 자신의 거주지 주변에는 범행을 저지르지 않는 일종의 안전지대, 완충지대를 둔다. 로스모의(그리고 찰리의) 공식은 이러한 범행 패턴을 반영한다. 연쇄범죄자는 정체를 드러내지 않으려고 자기 딴에는 무작위로 희생자를 고르지만, 이 공식은 범인이 사는 핫존을 매우 높은 확률로 말해준다.
통계와 확률이 밝히는 진실과 한계
어느 야간병동의 간호사가 심장정지 환자들을 조기에 발견하고 제때 응급조치하여 여러 생명을 구함으로써 ‘죽음의 천사’라는 명성을 얻는다. 하지만 동료 간호사들은 그녀가 근무할 때 심장정지 사망자가 유독 많다는 의혹을 제기하고, 병원이 진상조사에 착수하지만 전체 심장발작 비율은 다른 병원과 엇비슷한 정도다. 그럼에도 풀리지 않는 의혹은 급기야 법정으로 향하고, 검찰 측 증인으로 통계학자가 나서게 된다.
이것은 드라마 속 이야기가 아니라 1998년 실제로 있었던 ‘미국 정부 대 크리스틴 길버트 사건’의 개요다. 길버트의 기소 여부를 판단하기 위한 사전재판의 쟁점은 간단했다. 그녀가 근무 중일 때 환자가 유의미하게 더 많이 사망했는가? 한두 명 더 사망했다면 우연일 수도 있다. 길버트의 근무시간에 환자들이 그저 좀 더 불운했을지도 모른다. 길버트를 기소하기에 충분할 정도로 ‘유의미한’ 수준이려면 몇 명이나 더 사망해야 할까? MIT의 통계학 교수 스티븐 겔바흐는 이를 검사하기 위해 ‘가설검정’이라는 기초 통계분석을 이용했다.
먼저 그는 길버트가 근무한 18개월 동안 간호사들의 교대근무 횟수와 사망자 수를 조사했다. 총 1641회의 교대근무 중 사망자는 74명이었다. 만일 사망이 무작위로 일어났다면, 임의의 근무시간 중 사망자가 발생할 확률은 1641분의 74, 즉 0.045 정도다. 그중 길버트가 교대근무한 횟수는 257회였다. 만일 길버트가 환자를 살해하지 않았다면, 그녀의 근무시간 중 사망자 수는 즉 11~12명 정도라고 예상할 수 있다. 하지만 실제 사망자는 40명이나 되었다. 이런 일이 일어날 가능성은 얼마일까? 겔바흐의 계산에 따르면, 전체 사망자 74명 중 40명이 길버트의 근무시간에 사망할 확률은 1억분의 1보다 작았다. 동전을 10번 던져 모두 다 앞면이 나올 확률이 1000분의 1임을 감안한다면, 이러한 사망이 자연적으로 발생할 확률이 얼마나 낮은지 짐작할 수 있다.
이러한 결론에 힘입어 사전재판의 대배심원단은 길버트를 기소하기에 충분하다고 판단했다. 하지만 놀랍게도 본 재판에서 연방판사는 이러한 통계적 증거를 법정에 제시해서는 안 된다고 판시했는데, 이것은 또 다른 통계학자 조지 캅의 의견 때문이었다. 사전재판의 목적은 길버트를 용의자로 볼 근거가 있는지를 가리는 것이었고, 겔바흐의 분석은 길버트의 근무시간 중 사망자 수의 증가가 우연한 변동이 아니라는 의혹을 뒷받침했다. 그러나 본 재판의 목적은 그녀가 정말로 이런 사망 증가를 일으켰는가를 판단하는 것이었고, 조지 캅은 통계적 상관관계가 있다고 해서 인과관계가 있다고 말할 수는 없다고 주장했다. 즉 의심스러운 사망이 우연히 발생했을 확률이 1억분의 1이라는 사실이 곧 길버트가 환자들을 죽이지 않았을 확률이 1억분의 1이라는 의미는 아니라는 것이다. 어떤 다른 원인에 의해서 전자의 확률이 발생했을 수도 있으며, 상관관계 뒤에 숨은 변수가 존재할 가능성은 언제나 있기 때문이다. (이러한 이유로 겔바흐의 통계분석은 비록 채택되지 못했지만, 그럼에도 길버트는 종신형을 받았다.)
이미지 화질 개선의 수학
1992년 LA 폭동은 수많은 인명과 재산 피해를 낸 불행한 사건이었다. 사건이 발발하고 불과 몇 시간 되지 않아 TV 시청자들은 앞으로 5일간 벌어질 끔찍한 사태를 상징하는 폭행사건을 목격했다. 일군의 폭도들이 트럭을 세우고 운전사를 끌어내려 집단린치를 가하는 장면을 하늘에서 방송국의 헬기가 여과 없이 생중계한 것이다. 피해자는 두개골이 함몰되고 안구가 튀어나오는 중상을 입었고, 사태가 진정된 후 경찰은 TV 뉴스 비디오를 근거로 용의자들을 체포했다.
문제는 가장 중요한 증거인 그 영상이 소형 카메라로 찍은 탓에 너무 거칠고 흐릿해서 폭행범의 얼굴을 제대로 알아볼 수 없었다는 것이다. 전체적인 체격과 외모는 비슷했지만 다른 폭도들이 아닌 바로 그들이 범인이라고 특정하기에는 부족했다. 이때 검찰 측 증인으로 레오니드 루딘 박사가 나섰다. 그가 설립한 ‘코그니테크’ 사는 군사위성에서 찍은 감시사진의 화질을 개선하는 수학적 기법의 개발로 명성 높았다. 코그니테크 팀은 문제의 영상에서 폭행자 중 한 명의 팔뚝에 있던 흐릿한 자국을 수학적으로 처리하여 식별 가능할 정도로 선명화하는 데 성공했고, 그 자국이 용의자 중 한 명의 팔에 있는 장미 문신과 동일함을 보여주었다.
CCTV 화면의 흐릿한 부분을 컴퓨터로 확대해 선명하게 만드는 ‘이미지 화질 개선image enhancement’ 기술은 CSI 유의 드라마를 통해 우리에게도 친숙한 기술이지만, 포토샵과 같은 프로그램으로 명암과 콘트라스트를 조절하는 식의 단순한 방법이 아니다. 픽셀 하나하나의 색상값을 찾고 경계를 인식하기 위해서는 여러 다항식과 함수, 미적분법을 이용하는 ‘전변동total variation’ 방법이라는, 수치로 이미지를 재구성하는 대단히 복잡한 수학적 과정을 거쳐야 한다.
코그니테크 팀의 화질 개선 기술은 여러 형사재판에서 결정적인 증거를 제공해 유무죄를 가리는 데 도움을 주었을 뿐 아니라, 기름 유출 탐지, MRI 영상을 통한 조직 이상 식별 등에도 기여하고 있다. 또한 최근에는 역사적 논란의 사진들을 분석해 애리조나 주의 유명한 UFO 영상이 사실은 미 공군이 사용한 조명탄이라는 사실과, 케네디 대통령 암살사건에서 수수께끼의 ‘두 번째 총격범’의 정체가 사실은 사진 속 잡티에 불과함을 밝히기도 했다. 오늘날 누구나 손쉽게 할 수 있는 사진 위조뿐 아니라, 우리 눈에 보이지 않는 사진 속 숨은 진실을 되살려내는 작업도 모두 수학에 의해 가능해지고 있다.
베이즈 추론에 의한 미래 예측
어떤 도시에 파란 택시회사(15대)와 검은 택시회사(75대)가 있다. 어느 날 밤, 택시 뺑소니 사건이 일어난다. 택시 90대는 그 시각에 모두 거리에 있었으며, 목격자는 파란 택시였다고 증언한다. 경찰이 그날 밤과 비슷한 조건에서 파란 택시와 검은 택시를 무작위로 보여주자 목격자는 택시 색깔을 5번 중 4번꼴로 맞춘다(나머지 한 번은 파란 택시를 검은 택시로, 검은 택시를 파란 택시로 오인한다). 과연 뺑소니 사건을 낸 것은 어느 회사일까?
우리는 목격자가 5번 중 4번이 정확했으니 파란 택시였을 확률도 5분의 4 즉 0.8이라고 보통 생각한다. 그러나 베이즈 추론은 상당히 다른 진실을 들려준다. 결론부터 말하면, 파란 택시가 뺑소니차일 확률은 9분의 4 즉 0.44에 불과하다. 검은 택시였을 가능성이 더 큰 것이다. 이는 이 도시의 택시가 검은색일 가능성이 파란색에 비해 5배 많다는 ‘사전 확률’을 감안한 결과다. 검증을 위해, 90대의 택시를 차례로 내보내서 목격자에게 색깔을 맞춰보게 해보자. 15대의 파란 택시를 보았을 때 그가 맞출 확률은 80퍼센트이므로, 12대는 ‘파란색’으로 보이고 3대는 ‘검은색’으로 보인다고 말할 것이다. 75대의 검은 택시를 내보내면 그중 20퍼센트를 잘못 볼 것이므로, 15대는 ‘파란색’으로 보이고 60대는 ‘검은색’으로 보인다고 말할 것이다. 목격자가 ‘파란색’이라고 말하는 택시는 총 27대인데, 그중 실제로 파란색인 것은 12대에 불과하다. 즉 뺑소니차가 실제로 파란 택시일 확률은 27대 중 12대, 9분의 4(44퍼센트 정도)인 것이다.
〈넘버스〉 1시즌 13화 ‘범인 추적’에서 찰리가 탈출한 죄수들을 검거하도록 도울 때 이용하는 것이 이러한 베이즈 통계분석이다. 찰리는 무수한 목격자들의 신고 중 어느 것이 정확한 정보이고 어느 것이 잘못된 정보인지 어떻게 판별했을까? 먼저 그는 확실한 정보들로부터(탈출한 죄수 중 붙잡힌 이들의 자백이 있었다) 사전 확률을 할당하고, 물리적 이동거리와 신고자의 신뢰도 등도 고려했을 것이다. 물론 이것은 인간의 판단과 평가에 좌우되는 부정확한 부분이다. 그러나 여기에 베이즈 추론을 수차례 반복 적용하면 수많은 목격담에 확률이 부여되고, 확률이 높을수록 그 목격담이 정확할 가능성도 높아져 점차 인간적 평가의 모호함을 극복하게 된다. 베이즈 분석은 모든 시간, 모든 장소를 동시에 고려할 수 있는 합리적이고 정량적인 방법을 제공하며, 그리하여 찰리는 형에게 자신있게 이렇게 말할 수 있게 된다. “당장 그곳으로 요원을 보내!”
리만 가설과 암호 해독
어느 수학자의 다섯 살 난 딸이 납치된다. 그의 연구실 화이트보드에 쓰여 있는 공식들을 보자마자 찰리는 즉각 그 수학자가 연구하는 것이 ‘리만 가설Riemann hypothesis’임을 알아챈다. 찰리의 설명을 듣고, 납치범 중 한 명의 신원을 알아내자 돈의 머릿속에 사건의 전모가 그려진다. 납치범들은 수학자의 딸을 납치해 그가 발견한 리만 가설의 해법을 털어놓도록 협박한 뒤 은행 컴퓨터에 침투해 수백만 달러를 훔치려는 계획인 것이다. 정말로 리만 가설을 푼다면 인터넷 보안 시스템을 무너뜨릴 만능키를 얻어 전 세계 인터넷 거래를 붕괴시킬 수 있을지도 모른다. 그 위험을 이해하기 위해서는 먼저 현재의 암호체계가 어떤 원리로 작동하는지 살펴보아야 한다.
제2차 세계대전 이후 안전한 암호체계를 설계하는 일은 수학자들의 몫이었다. 암호를 깨기 위해 강력한 컴퓨터로 무장하고 있는 해커들의 공격을 이겨내기 위해서는 암호체계 자체가 대단히 복잡해야 한다. 현대의 암호체계는 대개 암호화 프로그램과 ‘키’(비밀번호)라는 두 가지 요소로 구성돼 있는데, 메시지의 발신자와 수신자가 사용할 키를 미리 합의하여 공유하고 비밀로 유지하는 한 안전하다. 하지만 이 시스템에는 명백한 결점이 있는데, 발신자와 수신자가 최소한 한 번은 만나서 서로 키를 교환해야 한다는 점이다. 인터넷뱅킹이라면 근처 은행을 찾아가서 개인용 키를 받아오면 그만이지만, 지구 반대편의 전혀 만난 적 없는 사람들끼리는 안전하게 전자상거래를 하거나 이메일을 주고받을 길이 없다.
1976년 스탠퍼드 대학의 두 수학자가 ‘공개키 암호화’를 제안하면서 돌파구가 열렸다. 이 시스템에서는 한 개가 아니라 두 개의 키(암호화 키와 해독 키)를 사용한다. A라는 사람이 먼저 두 개의 키를 만든다. 해독 키는 자신이 안전하게 보관하고, 암호화 키는 네트워크 사용자들에게 공개한다. B가 A에게 메시지를 보내고 싶다면, A가 공개한 암호화 키를 찾아서 메시지를 암호화한 다음 A에게 보내면 된다. 다른 사람은 A의 암호화 키를 알더라도 B의 메시지를 해독할 수 없다. 해독용 키는 오직 A만 알고 있기 때문이다(심지어 B조차도 자신의 메시지를 암호화한 뒤에는 해독할 수 없다).
곧 MIT의 세 연구자가 이 아이디어를 실용화할 방법을 찾았다. 컴퓨터를 이용해 150자리의 큰 소수를 찾아내는 것은 어렵지 않다. 또 그런 소수들을 곱해 300자리의 수를 만들어내는 것도 쉽다. 하지만 300자리의 수를 두 개의 소수로 인수분해하는 것은 사실상 거의 불가능하다(현재 가장 빠른 컴퓨터로도 수십 년에서 수백 년이 걸린다). 이에 착안해 그들은 두 개의 큰 소수를 비밀 해독 키로, 두 소수의 곱을 공개 암호화 키로 사용하는 오늘날 가장 널리 쓰이는 RSA 암호체계(세 연구자의 이름에서 땄다)를 만들어냈다. 결국 큰 수를 인수분해하는 효율적 방법을 아직 찾아내지 못한 수학자들의 무능력 때문에 현재 전 세계 인터넷 보안 시스템이 유지되고 있는 셈이다. 어쨌든 RSA 알고리듬이 광범위하게 이용되면서 소수를 찾아내고 큰 수를 인수분해하는 방법에 대한 연구가 활발해졌고, 소수의 분포와 밀접한 연관이 있는 리만 가설이 ‘세상에서 가장 큰 금융 비밀’을 풀 열쇠로 주목받게 되었다.