로봇 저널리즘 국내 실험 사례

2015.12.07 09:00다독다독, 다시보기/이슈연재

 

*위 내용은 한국언론진흥재단 <신문과 방송 2015년 11월호>에 실린 서울대 언론정보학과 교수・서울대 언론정보학과 박사과정 이준환・김동환님의 글을 옮겨온 것입니다.

 

지난 1월 AP통신이 작성한 애플의 실적 발표 기사‘Apple tops Street 1Q forecasts’가 사람이 아닌 알고리즘에 의해 쓰였다는 사실이 국내 뉴스에 소개되면서 국내에서도 로봇 저널리즘에 대한 관심이 커졌습니다. 뉴스 기사를 만드는 모든 과정에 컴퓨터 알고리즘이 관여해 사람의 손을 거치지 않고 기사를 생성하는 분야를 로봇 저널리즘이라 지칭하는데, 이미 미국에서는 내러티브 사이언스나 오토메이티드 인사이트 같은 회사가 AP통신, 포브스 등의 매체와 계약을 맺고 알고리즘이 작성한 기사를 다량으로 공급하고 있습니다.

 

프로야구 기사 쓰는 로봇

 

알고리즘은 신속하고 정확하게 자료를 분석할 수 있기 때문에 재난 등의 상황에서 누구보다 빠르게 판단을 내리고 기사를 작성할 수 있습니다. 이에 LA타임스는 퀘이크봇이라는 뉴스로봇을 통해 지진 등의 재난 정보 기사를 제공하고 있습니다. IT 기사를 전문으로 다루는 매셔블의 선임 편집위원 율라노프는 오토메이티드 인사이트의 기사 작성 인공지능 알고리즘인 ‘워드스미스(Wordsmith)’가 2013년 한 해에만 찍어낸 기사가 무려 300만 건에 이른다고 밝혔습니다. 해외의 예에서 볼 수 있듯이 로봇 저널리즘은 이제 더 이상 먼 미래의 일이 아닙니다. 미국 등의 영어권 국가에서는 이미 특정 분야의 기사 작성에 로봇이 뛰어난 활약을 하고 있고 활동 범위를 점차 넓혀가고 있습니다.

 

올 상반기부터 우리나라에서도 로봇 저널리즘을 접할 수 있게 됐다. 국내 최초로 로봇 저널리즘 소프트웨어를 개발한 서울대 언론정보학과의 hci+d lab 홈페이지.

 

올 상반기에 국내에서도 로봇 저널리즘 소프트웨어가 개발되어 공개됐습니다. 서울대 언론정보학과의 hci+d lab3에서 개발한 로봇 저널리즘 소프트웨어는 2015년 한국 프로야구의 모든 경기를 자동으로 요약, 정리해서 뉴스 기사로 제공합니다. 다음의 사례는 서울대 뉴스로봇이 작성한 한국 프로야구 2015년 플레이오프 2차전 경기의 기사입니다. 접전이었던 이 경기는 8회말 NC가 승점을 따내며 승리로 마무리했습니다.

 

<기사 사례 1> 두산 1:2 NC (2015.10.19.) NC는 19일 열린 플레이오프 2차전 경기에서 두산을 2:1, 1점차로 간신히 꺾으며 안방에서 승리했다. NC는 스튜어트를 선발로 등판시켰고 두산은 장원준이 나섰다. 팽팽했던 승부는 8회말 0아웃에 타석에 들어선 지석훈에 의해 갈렸다. 지석훈은 두산 함덕주를 상대로 적시타를 터뜨리며 홈으로 주자를 불러들였다. 지석훈이 만든 1점은 그대로 결승점이 됐다. NC는 두산의 9회초 마지막 공격을 성공적으로 막아내며 19일 경기를 승리로 장식했다.

 

위의 사례에서 보듯이 뉴스로봇은 경기의 주요플레이와 해당 선수를 중심으로 기사를 작성하고 있습니다. 뉴스로봇은 원시 데이터 분석을 통해 기사의 핵심이 될 중요 이벤트를 찾아내고, 이를 기반으로 기사의 분위기를 판단한 후 기사를 작성하게 됩니다. 이 과정은 서울대 연구팀이 개발한 로봇 저널리즘 프레임워크에서 정의하고 있습니다.

 

자동으로 뉴스 기사를 생성하기 위해서는 데이터를 처리하고 분석하는 과정을 단계별로 구분할 필요가 있습니다. 서울대 연구팀이 개발한 로봇 저널리즘 프레임워크는 이를 다음과 같은 다섯 단계로 구분했습니다.

 

로봇 저널리즘 프레임워크

 

로봇 저널리즘의 5단계 프레임워크

 

1) 데이터 수집(Data Crawling)
첫 번째 단계는 데이터 수집 알고리즘을 통해 원시데이터(raw data)를 수집하는 단계입니다. 웹 사이트의 크롤링(crawling), API(Application Programming Interface) 등을 활용해 원시 데이터를 수집합니다. 수집된 데이터를 정제하고 분석을 위한 적절한 형태로 변환하는 과정을 포함합니다.

 

2) 이벤트 추출(Event Extraction)
두 번째 단계에서는 수집된 데이터의 분석이 이루어집니다. 텍스트 마이닝(text mining), 의미망 분석(semantic analysis) 등의 텍스트 분석 기법 등을 활용하여 수집된 데이터에 의미를 부여하는 과정입니다.

 

3) 중요 이벤트 선별(Key Event Detection)
이전 단계에서 추출된 모든 이벤트가 기사에 포함될 수 있는 것은 아닙니다. 기사는 중요한 이벤트를 중심으로 작성되기 때문에 두 번째 단계에서 추출한 이벤트들의 중요도를 선별하는 작업이 필요합니다. 이를 이벤트 스코어링(Event Scoring)이라고 부르는데, 통계적 분석 기법, 기계학습(machine learning)등의 알고리즘을 통해 중요 이벤트가 무엇인지 선별합니다.

 

4) 기사의 분위기 결정(Mood Detection)
중요 이벤트의 선별이 이루어진 후에는 이를 기반으로 기사의 분위기를 결정합니다. 알고리즘으로 내러티브를 생성할 때에는 글의 전체적인 관점을 정해야 하는데, 이때 관점이라는 것은 사건을 바라보는 시각을 정의하는 것을 의미합니다(Allen et al., 2010 Diakopoulos, 2015).

 

5) 뉴스 기사 생성(News Article Generation)
마지막 단계에서는 지금까지의 단계에서 처리한 데이터를 바탕으로 실제 문장을 생성하여 기사를 작성하는 단계입니다. 이전 단계에서 선별한 중요 이벤트를 설명할 수 있는 적절한 문장을 선택하여 이야기를 만들어냅니다.

 

증시 분석 기사도 척척

 

<기사 사례 2> [시황] 코스피, 외국인 매도에 하락,1942.85 마감 (2015.09.25.)


25일 코스피는 전보다 4.25포인트(0.22%) 하락한 1,942.85포인트로 거래를 마쳤다. 매매 주체별로는 외국인이 3,002억 원어치를 순매도하면서 지수의 하락세를 홀로 이끌었으며, 개인과 기관은 각각861억 원, 1,516억 원을 매수했다. 업종별로는 종이목재가 0.03%, 비금속광물이0.14%, 기계가 0.73% 상승했으며, 음식료업이-0.24%, 섬유의복이 -0.59%, 화학이 -0.67% 하락했다. 시가총액 상위 10개 종목 가운데 삼성전자, 아모레퍼시픽이 각각 -1.24%, -2.53%의 하락폭을 보였고, 그 외에 현대차(2.53%), 한국전력(0.51%), SK하이닉스(1.48%) 등은 상승했다. 코스닥은 전날보다 1.18포인트(0.17%) 하락한682.7포인트로 거래를 마쳤다. 이날 외국인과 기관이 각각 295억 원, 406억 원어치를 동반 순매도하며 지수 하락을 이끌었으며, 개인은 775억 원을 순매수했다. 업종별로는 운송이 2.35%, 금융이 1.15%, ITS/W가0.86% 상승했으며, 건설이 -0.28%, 유통이 -0.42%,통신/방송이 -1.8% 하락했다. 시가총액 상위 10개 종목 가운데 다음카카오, 컴투스가 각각 0.08%, 2.12% 올랐고, 그 외에 셀트리온(-0.71%), 동서(-1.79%), CJ E&M(-3.33%) 등은 하락했다.

 

살펴본 바와 같이 로봇 저널리즘의 핵심은 데이터 분석에 있습니다. 빅데이터 시대를 살아가는 우리는 엄청나게 많은, 하지만 대부분 의미없는 데이터에 둘러싸여 있는데, 로봇 저널리즘은 이들 무의미한 데이터에서 의미를 발견하고, 사용자의 다양한 맥락에 맞춰 정보를 전달하는데 일차적인 가치를 가집니다. 이에 로봇 저널리즘의 가능성을 다음의 몇 가지로 생각해 볼 수 있습니다.

 

가능성과 한계

 

첫째, 빠른 속도의 컴퓨터 알고리즘에 기반하고 있기 때문에 기본적으로 로봇 저널리즘은 정보를 빠르고 정확하게 전달할 수 있습니다. 따라서 스포츠 경기나, 주가 동향, 재난 정보와 같이 정보를 빠르게 전달해야 하는 경우 로봇 저널리즘은 큰 역할을 수행할 수 있을 것입니다.

 

둘째, 로봇 저널리즘은 개인화된 정보를 전달할 수 있습니다. 사람과 달리 로봇은 개개인의 데이터를 기반으로 하여 실시간으로 데이터 분석을 이루어낼 수 있기 때문에 개개인의 상황에 최적화된 뉴스 기사를 생성해낼 수 있습니다.

 

마지막으로 로봇 저널리즘은 단순한 일과를 효율적으로 대체하여 사람들이 보다 생산적인 업무에 집중할 수 있게 할 수 있습니다. 매일 반복적으로 작성해야 하는 보고서와 같은 경우는 뉴스로봇 알고리즘이 충분히 혼자서도 처리할 수 있습니다.

 

 

로봇 저널리즘의 여러 가능성에도 불구하고 아직 한계점 또한 노출하고 있습니다. 먼저 저널리즘의 관점에서 로봇이 생산해 내는 기사가 기존 저널리즘의 가치를 충분히 따르고 있는지, 혹은 따라야 하는지는 보다 논의가 필요한 부분입니다. 로봇 저널리즘을 기존 저널리즘의 연장으로 볼 것인지, 새로운 정보 서비스로 볼 것인지에 대한 학계의 논의가 아직 정리되지 않았습니다. 알고리즘의 편향성, 신뢰성 등에 대한 연구도 좀 더 진행될 필요가 있습니다.