Chapter 10_우리는 모두, 언어의 지문을 남긴다
이 장에서는 우리 연구진들과 내가 오랫동안 다뤄온 흥미로운 연구들을 한데 모아 살펴볼 것이다. 주제는 꽤나 다양하지만 이 연구들은 기발한 의문에 답하기 위해 여러 가지 방법으로 단어를 분석할 수 있다는 것을 보여준다.
1. 익명의 이메일 발신자 알아내기
나는 한 로펌의 시니어 파트너에게서 걸려온 전화에 적잖이 당황했다. 그는 나에게 이메일 한 통을 분석해줄 수 있겠느냐고 했다. 이메일은 꽤나 섬세한 것이었고 그녀가 메일을 보낸 사람과 직접 이야기하는 것이 중요하다고 했다. 유일한 문제는 익명의 이메일이라는 점이다.
이메일은 그녀의 소문에 대한 것이었다. (이메일의 내용은 생략함)
내가 이 사건에 착수한 후 몇 년 사이에 단어를 보는 새로운 방법들이 몇 가지 개발되었다. 하나는 <친구>라는 단어를, 정기적으로 글을쓰는 수만 명의 블로거가 사용한 단어들과 비교해보는 것이다. 우리는 이메일에서 기능어와 감정을 나타내는 단어만 살펴보아도 글쓴이가 여성일 확률이 71퍼센트이고, 나이는 35세에서 45세일 확률이 75퍼센트라고 추측할 수 있었다.
성격을 정확히 읽어내기는 어렵다. 한 가지 분석을 통해 알 수 있는 것은 글쓴이가 자아도취적 성향이 강하고, 다시 말해서 약간 자만하고 남을 조종하는 데 능할 가능성이 꽤 높다는 것이다.
이메일을 더 자세히 들여보다니 다른 단서들이 나타났다. 글쓴이는 심리적으로 회사에 연결되어 있었고, 여러 부서에서 도는 소문을 알고 있다. 그리고 어려운 어휘를 사용함으로써 그녀에게 깊은 인상을 주려 했다. 특히 흥미로운 점은 <만족함 없는>, <비열한>, <악한 혀>와 같은 단어와 구절을 사용한다는 것이다. 이것들은 구약성경에 나오는 단어들이고, 또 다른 분석에 따르면 당시 나이로 42세에서 44세 정도인 사람들이 주로 쓰는 단어였다.
또 하나의 중요한 단서는 문자의 배치와 문장 부호였다. 익명의 글쓴이는 마침표와 다음 문장 사이에 한 칸만 띄어 썼는데, 이는 글쓴이가 1985년 이후 타자 치는 법을 배웠거나 마침표 뒤에 한 칸을 띄는 것이 표준이던 1985년 이전에 언론 혹은 출판계 쪽에 경력이 있는 사람이라는 것을 암시한다.
내가 보고서를 보내주자 그녀는 안도했다. 보고서의 내용이 그가 점찍었던 사람과 정확히 맞아 떨어졌기 때문이다. 이메일을 쓴 사람은 신문 쪽에 경력이 있는 40대 초반의 양심적인 여성으로, 몇 년 동안 그 회사에 있었던 사람이다.
2. 글쓴이의 정체를 알아낼 수 있는 두 개의 단서
언어적 단서를 해독해서 범죄를 해결하는 것은 범죄학에서 오래전부터 많이 쓰이던 방법이다.
초창기 법언어학자 중 가장 잘 알려진 사람은 바사 칼리지 영문과 교수인 도널드 포스터이다. 역사와 문학에 대한 해박한 지식을 바탕으로 컴퓨터 기술과 연역적 기술을 섞어 사용한 포스터는 법 집행기관과 함꼐 유나바머 사건,2001년 탄저균 테러, 1997년 존베넷 램지 살인사건처럼 세간의 이목이 집중되는 사건들을 조사했다. 그는 셰익스피어와 가은 작가들이 쓴 작품의 진위를 가려내는 데에도 자신의 연구 방법을 적용했다. 아마 포스터의 가장 성공적인 업적은 빌 클린턴의 대통령직 수행에 대한 풍자적인 소설로 익명으로 출간된 <프라이머리 컬러스 Primary Colors>의 진짜 작가가 조 클라인임을 밝혀낸 일일 것이다.
하지만 포스터는 여러번 적중이 빗나갔었기 때문에 논란이 된 인물이기도 했다. 그는 통꼐와 과학이라기보다 영문학적 지식을 바탕으로 하는 것이었다. 그렇긴 하지만 그는 컴퓨터 기반의 식별 기법이 문학과 범죄 수사의 영역에서 장래성이 있음을 일깨워주었다.
우리는 모두, <언어의 지문>을 남긴다
사람들이 문자 언어를 사용할 때도 다양한 유형의 텔(포커 선수들의 속임수)이 존재한다.
그 중 글쓴이의 정체를 알아내는 데 특히 유용한 두 개의 단서는 <기능어>와 <문장 부호> 사용법이다.
20명의 블로거가 올린 수많은 게시물을 우리가 구했다고 해보자. 몇 년 후 우리는 그 20명의 블로거가 각각 몇 편씩 새로 올린 글을 발견한다. 이제 당신이 거실 바닥에 앉아서 수백 페이지나 되는 게시물들을 펼처놓고, 최근 게시물과 그 글을 쓴 20명의 블로거가 옛날에 쓴 글들을 일일이 짝지으려 한다고 상상해보자. 모든 조건이 동일하다면 그저 우연히 올바르게 짝 지을 수 있는 확률은 5퍼센트다. 거의 모든 사람들은 이 과제를 정말 형편없이 해낼 것이다.
컴퓨터는 사람보다 좀 더 인내심있고 체계적이다. 기능어만 분석해도 최근 게시물과 원저자를 29퍼센트 정도 정확히 맞힌다. 게시물 사이의 시간차를 고려하면 이 정확도는 실로 놀라울 정도다.
문장 부호가 알려주는 단서들
글쓴이를 식별하는 방법에는 기능어 말고도 문장 부호를 사용해서 나타나는 일관성도 있다.
문장 부호들이 글에 쓴 어떤 요소보다도 글쓴이를 알아볼 수 있게 해주는 경우가 있다. 사실 문장 부호만 보았을 때 컴퓨터 프로그램으로는 글쓴이를 31퍼센트 정확하게 맞혔다. 이는 기능어를 이용했을 때와 같은 비율이었다. 기능어와 문장 부호를 함께 사용하여 컴퓨터로 분석했을 때는 몇 년 후의 게시물과 블로거를 39퍼센트의 정확도로 올바르게 짝 지을 수 있었다.
3. 비틀스의 노래 가사가 비틀스에 대해 알려주는 것들
비틀스는 1970년 해체될 때까지 약 10년 동안 함께 활동했다. 그동안 200곡 이상을 녹음했고, 음악, 정치, 패션, 문화 등에서 다음 세대에까지 영향을 미쳤다.
좋은 친구이자 가끔 나와 공동 연구를 하는 뉴질랜드의 키스 페트리는 컴퓨터로 비트르의 가사를 분석하는 일을 이미 한참 전에 했어야 한다고 주장했다. 그 작업이 얼마나 복잡한지 깨달은 우리는 노르웨이의 심리학자이자 음악 애호가인 보르게 실베르센에게 합류를 권했다. 우리는 비틀스의 가사를 분석해서 비틀스에 대해 무엇을 알 수 있었을까? 알고 보니 꽤 많았다.
비틀스의 가사에는 보통 모든 작업 집단에서 보이는 자연스러운 성숙 과정이 다양한 방식으로 반영되었다.
우리는 앞 장에서, 작업 집단이 함께 시간을 보내다 보면 <나>라는 단어의 사용 비율이 낮아지고 <우리>라는 단어의 사용 비율이 높아지며 어려운 단어, 관형사, 접속사 등을 더 많이 포함하는 복잡한 언어를 사용하게 된다는 사실을 알아 보았다. 여느 집단과 마찬가지로 비틀스 역시 나이 들어감에 따라 그들 자신을 표현하는 가사에서 위와 같은 특징이 나타났다.
활동을 시작한 지 4년 까지는 가사가 낙관주의, 분노, 성적인 요소로 가득했다. 생각은 단순하고 자아도취적인 동시에 <지금, 이곳>에 치중되어 있었다. 이에 비해 해체 전 몇 년 동안에는 가사가 더 복잡해지고 심리적인 거리가 드러난 한편 훨씬 덜 긍정적인 감정을 반영했다.
특히 언급할 만한 점이라면 활동 초기에 14퍼센트 정도였던 <나>라는 단어의 비율이 마지막 3년 동안에는 7퍼센트에 불과했다.
존 레논은 매카트니에 비해 가사에 부정적 감정을 나타내는 단어를 조금 더 사용했지만 긍정적 감정을 나타내는 단어의 사용, 언어적 복잡성, 자기성찰적 성향에서는 사실상 같았다. 흥미롭게도 매카트니의 곡은 레논의 곡에 비해 커플 이야기아 많은데 이것은 <우리>라는 단어의 높은 사용 비율에서도 알 수 있다.
대중매체에서는 보통 존 레논을 더 창의적이고 다양한 문체를 구사하는 작사가로 간주하는 데 비해 숫자는 분명히 매카트니 편을 든다. 비틀스 멤버로 지내는 동안 폴 메카트니는 존 레논에 비해 문체뿐만 아니라 내용 면에서도 훨씬 유연하고 다양한 가사를 써낼 수 있음을 입증했다.
그리고 조지 해리슨을 잊지 말자. 조용하고 영적인 멤버였던 그는 약 25곡의 가사를 썼는데 특히 마지막 몇 년 동안 많이 써냈다. 해리슨은 매카트니나 레논보다 인지적으로 복잡한 단어들을 사용했지만 문체로 보면 가장 덜 유연했다. 다시 말하면 해리슨의 가사는 내용과 문체를 예측하기가 더 쉬웠다는 의미다. 이와 같은 유형의 분석을 통해 알 수 있었던 또 하나의 사실은 해리슨의 작사 방식은 매카트니보다 레논에게 더 큰 영향을 받았다는 점이다.
4. 대입 지원 에세이에 쓴 단어로 미래의 대학 성적 예측하기
학생들이 대입 지원 에세이에 사용하는 기능어로 그들의 대학교 성적을 예측할 수 있을까?
우리는 4년 동안 입학한 2만 5천명 학생들의 에세이를 5만편 이상 분석했다. 결과는 단순했다. 실제로 단어 사용 스타일은 4년 내내 학생들이 받는 성적과 관련이 있었다. 좋은 성적과 가장 밀접하게 관련 있는 단어의 범주는 다음과 같았다.
자주 사용하는 단어 : 관사, 구상명사, 어려운 단어
적게 사용하는 단어 : 조동사와 다른 동사(특히 현재형), 인칭 대명사와 비인칭 대명사
사람마다 범주를 나누어 생각하는 정도와 역동적으로 생각하는 정도는 다르다. 범주적 사고를 하는 사람들은 사물, 대상, 범주에 집중하는 경향이 있다. 이 차원의 반대쪽 끝에 해당하는 사람들은 역동적으로 생각한다. 역동적으로 생각하는 사람들은 행동과 변화를 묘사한다. 역동적으로 사고하는 사람들은 다른 사람을 생각하는 데 몰두하는 경우가 많다. 이는 그들에게서 대명사 사용 비율이 높은 원인이 된다.
그렇다면 범주적으로 생각하는 사람들이 역동적으로 생각하는 사람보다 더 똑똑할까? 전혀 그렇지 않다. 하지만 미국 교육 체계는 학생들이 사물과 사건을 범주화하는 방식을 시험하도록 만들어져 있다.
범주적 사고를 하는 학생이 똑똑해서가 아니라 범주적 사고가 대학에서 보상을 주는 기준에 더 적합하기 때문에 더 좋은 성적을 받았다.
5. 글에 사용한 단어를 이용하여 출소 이후 더 나은 삶의 여부 예측하기
[1] 전에 우리 대학원생이었던 앤 바노(Anne Vano)는 재활 치료 여성 환자들이 시설 안에서 글을 쓴 스타일로 출소 후 그들의 삶을 예측할 수 있는지 알아보기 위해 야심찬 프로젝트를 수행했다.
앤은 한 치료 공동체와 협력하여 120명 정도 되는 여자 환자들의 글 표본을 모았다. 앤이 주목한 표본은 출소하기 일주일 전에 쓴 글들이었다. 그 글들은 개인적이고 진심에서 우러나오는 글이리라고 예상되었다. 앤은 이후 몇 달 동안 관리 사무소와 협업하여 여자 환자들이 직장에 꾸준히 다니고 있는지, 가석방 조건을 위반하거나 재구속되지는 않았는지 후속 정보를 모았다.
여자 환자들이 쓴 이야기들은 강렬했다. 이들은 신체적 및 성적 학대의 피해자로서 겪은 이야기를 하거나 다른 사람들, 특히 자기 아이들에게 한 끔찍한 행동을 자세히 쓰기도 했다. 그리고 출소 후 불확실한 가정생활로 돌아가는 것에 대한 엄청난 불안을 표현할 때도 많았다.
출소한 120명 중 15퍼센트는 다시 구속되었고 10퍼센트는 프로그램을 마친 지 넉 달 후 가석방조건을 어겼다. 약 65퍼센트는 꾸준히 직장에 다니고 있었다.
흥미롭게도 여자 환자들의 마지막 들에서 단어를 사용한 스타일은 출소 4개월 후 잘 살고 있을지를 어느 정도 예측했다. 치료의 성공과 가장 밀접하게 관련있는 언어의 두 가지 범주는 다음과 같았다.
– 높은 사회적 – 정서적 영향 : 인칭 대명사와 감정을 나타내는 단어의 사용
– 긍정적 감정을 나타내는 단어의 높은 비율
치료 공동체를 떠난 여자들의 과제는 새 직장에 적응하고 사회적 네트워크에 융화되는 것이었다. 범주적 사고와 역동적 사고는 이들과 관련이 없는 차원이었다.
그들이 글에 드러낸 두 가지 범주는 바깥 세상에서 살아가는 데 그들에게 도움이 될 수 있는 기술이었던 것이다.
***
내가 책에 소개한 연구들과 관련해서 마음에 드는 점은 기능어가 다르게 사용됨에 따라 매우 다른 행동들을 예측한다는 점이다. 예를 들면 높은 사회적 – 정서적 성향과 관련된 단어의 사용은 교도소에 다시 들어가지 않거나대통령으로 당선되도록 도와줄 수 있고 엄청난 인기를 얻는 곡을 쓰는 데 필요한 기술을 제공할 가능성도 있다.
사회적 및 심리적 상태와 관련이 있는 단어들은 상태를 반영하는 것이지 그 원인은 아니다. 이런 단어들은 사람들이 머릿속에서 무슨 일이 일어나고 있는지 알려준다. 교도소에서 출소하기 직전 인칭 대명사와 감정을 나타내는 단어를 높은 비율로 사용하는 사람들은 글의 주제에 사회적 – 정서적인 방식으로 접근하는 것이다. 그 단어들이 출소 후의 행동에 직접적으로 영향을 미쳤는지는 알 수 없다. 그리고 그들이 스스로 그런 단어를 사용했더라면 그것이 교도소 밖의 삶에 영향을 미쳤을지는 더욱 알 수 없다.
우리는 새로운 세상의 문턱에 서 있다. 컴퓨터의 언어 분석이 열어준 많은 응용 가능성을 생각해보자. 우리는 취임 연설이나 선조들의 일기를 분석함으로서 우리의 과거에 영향력을 미친 작가나 연설가를 알 수 있다. 그리고 우리가 일상 속에서 당면하는 심리학적 문제들에 답하기 시작할 수도 있다.
기능어는 우리가 세상을 조금 더 잘 알도록 도와줄 수 있다. 가장 기대되는 것은, 우리 자신의 기능어를 살펴봄으로써 우리 자신을 더 잘 이해할 수 있다는 사실이다.