디지털시대에서 별로 주목을 받지 못하는 분야가 바로 인문학이다. 인간의 생각을 다루고 표현한다는 측면에서 역사, 철학, 문학, 언어학 등 인문학 분야는 컴퓨터 기술에 접목될 여지가 많지 않아 보였기 때문일 것이다. 그런데 수천 년간 인문학의 결과물을 기록하던 매체가 종이에서 디지털로 급격하게 변화되는 20세기 후반부터 인문학에도 서서히 변화가 일기 시작했다. 이른바 아래한글이나 MS워드와 같은 문서편집기라고 불리는 제품들이 1990년 전후로 쏟아져 나오면서부터이다. 이러한 문서편집기는 인터넷 서비스와 결합되면서 인간이 오랫동안 종이에 의존해서 기록하던 문화를 디지털 기록으로 바꾸는 계기를 가져오게 되었다. 아울러 과거의 기록 또한 컴퓨터 파일로 바꾸고 이를 바탕으로 검색 등 서비스를 제공하기 시작했다. 방대한 자료를 갖고 있는 역사 분야에서 두드러진 성과를 보이기 시작한 것은 21세기 들어서이다.

디지털 인문학의 시대 도래

역사분야에서 우리나라의 경우는 교육부에 소속된 국사편찬위원회가 이를 주도하고 있다. 국사편찬위원회는 우리나라 역사를 연구하고 그 체계를 정립함에 필요한 각종 사료의 조사, 수집, 보존, 편찬하고 이를 바탕으로 한 한국사의 연구, 편찬, 연수, 보급을 원활하게 하여, 한국사 연구의 심화와 체계적인 발전 및 국민의 역사인식 고양에 기여함을 목적으로 하는 조직이다. 국사편찬위원회 역시 디지털 시대에 맞게 우리나라의 역사의 정보화 서비스를 선도하고 있다. 조선왕조실록 등 한국사의 시대별 기본 사료와 위원회 간행 주요 사료의 디지털 역사 정보 서비스를 제공하고 있다. 또한 관련 기관에서 구축한 다양한 한국사 관련 정보를 한 자리에서 검색하고 활용할 수 있는 ‘한국역사정보통합시스템’을 구축하여 역사 정보를 제공하고 있다. 그 중에서 가장 유명한 것은 세계기록유산으로 등재된 조선왕조실록 서비스이다. 조선왕조실록 서비스는 국보 151호(1973년)이며 UNESCO 지정 세계기록유산(1997년)인 《조선왕조실록》과 《고종, 순종실록》에 대한 디지털자료를 바탕으로 하는 온라인 서비스이다. 15년 전인 2005부터 3년간 진행된 정보화 사업의 결과이다. 2006년부터 조선왕조실록 원문과 번역된 한글 웹 서비스가 시작되어 오늘에 이르고 있다. 특이하게도 국사편찬위원회에서는 중국 명나라 실록과 청나라 실록을 제공하고 있다. 국사편찬위원회가 대만의 중앙연구원 역사어언연구소와 제휴를 통해 명실록, 청실록 원문 데이터베이스를 구축하여 조선왕조실록 사이트에 연계하는 웹 서비스를 2015년 말부터 시작한 것이다. 이렇듯 인문학 분야에서 주로 역사 기록이나 고전 문학을 중심으로 국내는 물론 외국에서도 유사한 양상을 보이고 있다. 중국의 경우도 논어, 맹자 등 고전을 비롯하여 다양한 역사 기록물이나 문학작품들을 인터넷에서 서비스를 하고 있는 중이다.

디지털 일상 그 자체가 21세기 방대한 인문학 대상

그런데 인터넷시대가 확산되고 소셜네트워크서비스가 일상에 스며들면서 인간의 생각이 인터넷 곳곳에 기록되는 새로운 인문학 시대가 열리고 있다. 인간의 생각이 그대로 인터넷에 기록되어 그 자체가 역사의 기록이 된다. 하루가 다르게 인터넷을 통해 새로운 단어가 만들어진다. 기자가 작성하던 기사를 컴퓨터가 대신 작성하는 사례도 비일비재하다. 컴퓨터가 소설을 쓰고 그림을 그려낸다. 서로 다른 언어를 사용하는 사람들 간에도 자동 번역기 등을 통해 의사 교환이 가능하다. 짧은 문장 하나가 국가의 정치적 여론의 결과로 나타나는 경우도 생겨난다. 수많은 사람들이 일상의 생각을 주고받는 소셜네트워크 서비스에는 문자나 영상 등 디지털 자료들이 쏟아져 들어온다. 과거 시나 소설과 같은 문학작품을 수백만 명이 읽어 보기까지는 상당한 시간과 노력이 소요되었다. 그러나 디지털 시대에서는 전 세계 수천만 명이 불과 수일 만에 읽어 보는 것이 일상화되어 있다. 어찌 보면 역사를 제외한 모든 인문학 분야가 디지털인문학의 시대에 들어간 것이다. 이렇듯 인간의 생각을 디지털화한 기록의 확대 재생을 통한 우리 인간의 삶을 변화시키는 가속도는 이미 우리의 인지적 상상을 초월하고 있다. 이러한 디지털 변화는 인간 사회를 거의 무중력 상태에 빠져들게 한지 오래다. 더 나아가 그 변화는 자연적 시간과 공간을 가로질러 우주적 리듬에 맞춰지고 있다. 그로 인해 인간의 이데아는 이미 와해되고 분열되어 사회 곳곳에서 폭발되고 있음을 볼 수 있다. 인문학 분야가 컴퓨터로 인해 촉발된 인간의 자기 주체성 핵분열이라는 양상을 쫓아가야 하는 상황이 전개되고 있는 것이다. 기존 인문학자들에게는 디지털 세상이 무질서의 세상으로 여겨지고 여전히 이방으로 보이는 이유이다.


디지털 인문학을 여는 수단 텍스트 마이닝

여기서 우리가 냉정하게 살펴보아야 하는 것은 과연 디지털 세상 이전과 이후에 인문학 관점에서 어떠한 차이가 있느냐이다. 실상 인문학 관점에서만 본다면 별 차이가 없다. 인간의 삶이 표현되고 그 속에서 가치를 찾는 일에는 아무런 변화가 없다. 단지 디지털 세상 이전에는 기록의 제약 즉 종이에 인쇄되어 나타낼 수 있는 자료가 일정한 범위의 한계를 가지고 있다는 점이고, 디지털 시대에는 그 한계가 없어져 거의 무한한 자료가 만들어지고 있다는 것이다. 그리고 참여자의 제약이 없어졌다는 점이다. 특정 범주의 사람들이 점하던 인문학은 소수가 다수를 대상으로 영향력을 행사하는 중심 극점을 가졌다면 디지털 시대는 그 극점이 존재하지 않는 무극점 시대로 바뀌었다는 점이다. 이점이 매우 중요하다. 과거에는 역사 등 인문학이 소수가 다루고 지배함으로써 수많은 사람들의 생각이나 여론에 영향을 주고 지배했다. 그러나 디지털 시대에는 다수가 다수를 대상으로 끊임없이 탐구하고 자신들의 생각을 교환함으로써 최적의 가치를 찾아가는 시대이다. 그 과정 또한 일정한 시간이 필요하지 않고 거의 실시간적으로 이뤄진다. 그러나 그 가운데서도 여전히 핵심 가치는 존재한다. 단지 넘쳐나고 정제되지 않은 것처럼 보일 뿐이다. 디지털 시대에서는 인간이 표현하는 모든 내용들이 기록되어진다. 그 가운데에서 핵심 가치를 찾아내기 위한 연구의 시작점이 바로 텍스트 마이닝이다. 텍스트 마이닝은 디지털 기록을 분석하는 수단이다. 소셜네트워크서비스에 기록된 내용을 분석하여 여론의 흐름을 찾아낸다. 인터넷에 기록되는 내용을 분석하여 삶을 순간 모습을 찾아낸다. 새로운 단어의 유행을 찾아낸다. 심지어는 텍스트 분석 등을 통해 감기 등 유행병이 번질 조짐을 감지해 내기도 한다. 텍스트 마이닝은 텍스트를 분석하고 여기서 새로운 가치를 찾아내는 과정을 말한다. 단순하게 가치를 찾아내는 것뿐만 아니라 그에 따른 삶의 대응 방안도 찾아 주는 것을 목적으로 한다. 여기에는 사람들이 사용하는 언어를 분석하여 자주 사용되는 단어, 방식을 찾아내기도 하고 숨겨진 의미를 찾아냄으로써 인간의 삶의 변화를 관찰할 수도 있다. 순간순간 변화하는 여론을 감지해 냄으로써 정치인들을 변화시키기도 한다. 텍스트 마이닝은 이러한 분석을 하기 위해 첨단 기술인 인공지능 기법을 사용하기도 한다.

텍스트 마이닝과 인문학의 접목

그러나 여전히 인문학 관점에서 본다면 텍스트 마이닝은 걸음마 수준이다. 통계에 기반을 둔 정량적인 관점에서 주로 이뤄지고 있기 때문이다. 아직 인문학에서 텍스트 마이닝을 활용해서 성과를 보이는 사례는 많지 않다. 사회학이나 심리학에서 기초 자료를 만들어 내는 곳에 제한적으로 사용될 뿐이다. 이는 여전히 디지털 기록 자체만으로는 인간 내면의 생각이나 가치를 충분하게 끌어 낼 수 없기 때문이다. 또한 텍스트 자체만으로도 전체 맥락을 분석해 내는 것이 힘들기 때문이기도 하다. 이유는 텍스트 마이닝 자체가 컴퓨터 공학에서 출발했다는 점이다. 모든 기록 그 자체를 데이터로만 보고 분석을 하는 것이다. 대부분 텍스트 마이닝의 결과는 통계적 관점에서 기술되고 있다. 물론 주요한 단어를 중심으로 전체 맥락을 분석을 하는 인문학적인 접근이 시도되기도 한다. 그러나 여전히 전체 텍스트를 입체적으로 분석하고 정리를 해내지는 못한다. 예를 들어 수천 자로 기록된 내용을 하나의 단어로 표현하는 것이 인문학에서 가능하다면 이를 텍스트 마이닝으로는 해결해 낼 수가 없다. 인문학에서 원하는 수준으로 텍스트 마이닝이 이뤄지려면 많은 기초 작업이 필요하다. 우선 다양한 말뭉치 사전이 구축되어야 한다. 언어학 분야에서는 이러한 말뭉치가 국내외적으로 꾸준히 축적되고 있다. 이를 바탕으로 언어가 자동 번역을 하는데 사용되고 있다. 한 언어에서 다른 언어로 번역을 할 수 있는 것은 이러한 말뭉치 사전이 구축된 덕이다. 향후 인간이 로봇과 대화를 한다면 이러한 말뭉치 사전을 어떻게 구축하느냐에 따라 다르게 될 것이다, 같은 단어라 하더라도 대화의 상황에 따라 다르게 인식되어져야 한다. 때에 따라서는 단어에 주어진 의미와는 반대의 의미로 해석되기도 해야 한다. 이러한 단계까지 이뤄지기까지는 앞으로도 수십 년이 더 걸릴 전망이다. 말뭉치 사전을 구축하는 것이 모든 인문학의 기초가 된다. 여기에다 분야별 텍스트 말뭉치 구축이 이뤄져야 한다. 일상생활에서 사용되는 언어 텍스트들은 대화를 전제로 하기 때문에 사람들 간에 의미의 차이가 크지 않다. 반면에 그러한 단어들을 서로 다른 분야에서 해석을 한다면 그 의미 차이가 커진다. 또한 역사적 시간대에 따라 완전히 다른 의미로 인식되어져야 한다. 이러한 분석을 위해서 필수적으로 갖춰야 하는 것이 분야별 텍스트 말뭉치다. 자동번역기에 일정 시간대 이전에 기록된 내용을 넣어 번역을 하면 전혀 엉뚱한 내용으로 번역되는 사례를 살펴볼 수 있다. 이는 분야별 말뭉치가 없다는 증거이기도 하다. 인문학의 융성은 한 나라의 국격을 상징한다. 디지털 세상 그 자체가 인문학인 현 시대에서 그에 걸맞은 인문학이 형성되어야 한다. 그 기저에는 인문학에 접목되는 텍스트 마이닝 분야가 발전해야 한다. 우리나라의 인문학이 지금처럼 디지털 세상을 외면하게 되면 인문학은 그저 또 다른 과거의 학문으로 전락하게 된다. 구글, 아마존, 애플 등은 오래전부터 텍스트 마이닝 분야에 투자를 해왔고 많은 성과를 거두고 있다. 뒤늦은 우리나라는 이제라도 국가에서 보다 많은 관심을 갖고 투자를 해야 할 시점이다.

● 한호현 (테크칼럼니스트·공학박사)

- 한호현은 정보통신분야 공학박사로 국회 4차산업혁명특별위원회 위원, 금융위원회 금융발전심의회 위원 등 다수의 기관에서 전문가로 활동하고 있다. 또한 정보통신산업진흥원 총괄본부장을 역임하였으며, 정보통신부, 현대정보기술 등 공공, 기업 등 다양한 분야에서 정보통신 관련 다양한 실무 경험도 갖고 있다.



주간한국