언론진흥재단의 뉴스 빅데이터 분석 시스템 ‘빅카인즈’

2016. 3. 28. 14:00다독다독, 다시보기/지식창고

 


 

한국언론진흥재단 뉴스빅데이터팀 김수지 사원의 글입니다.

 

'카인즈'에서 '빅카인즈'로 진화


 수초 단위로 뉴스가 소비되는 미디어 환경에서 한국언론진흥재단이 1990년부터 운영하고 있는 뉴스 데이터베이스 카인즈(KINDS)는 다소 모순적인 존재였다. 카인즈의 가치는 실시간성에 있는 게 아니라 수년간 켜켜이 쌓여온 기사들의 역사성에 있다. 하지만 속보기사 일변도의 환경에서, 그리고 오래된 뉴스는 읽히지 않는 미디어 환경에서 과연 카인즈의 과거기사가 어떤 가치를 지닐 수 있을까?

 

 뉴스 빅데이터 분석 시스템 구축사업은 이런 배경에서 시작됐다. 우리는 카인즈의 뉴스를 분석이 가능한 빅데이터의 일종으로 보고, ‘분석 가치를 부여해 뉴스 콘텐츠를 다시 보는 계기를 만들고자 했다.

 

 현재 뉴스 빅데이터 분석 시스템은 지난해 말 개발을 끝내고 현재 서비스 오픈을 준비 중이다. 뉴스 빅데이터 분석 시스템은 크게 두 가지 서비스로 제공될 예정이다. 하나는 뉴스 빅데이터 분석 결과를 시각화된 화면으로 제공하는 일반인용 서비스와 언론인, 학자 등 전문가가 직접 심층 뉴스 분석 데이터를 만들어 다운로드까지 할 수 있는 전문가용 서비스다.



<빅카인즈 메인화면>



단순 뉴스 '소비자'에서 '분석가'로


 일반인용 서비스는 빅카인즈(BIG KINDS)’란 서비스명으로 20163~4월 중 오픈 계획이다. 키워드 검색을 기반으로 하며, 키워드 언급 추이, 뉴스 히스토리, 매체별 언급 빈도 등 다양하고 입체적으로 뉴스를 파악할 수 있는 기능을 제공하는 것이 특징이다. 주목할 점은 최근 새로운 조류로 부상하고 있는 [각주:1]스트럭처 저널리즘을 빅카인즈가 충실히 구현했다는 점이다. 빅카인즈는 뉴스 속에 등장한 인물·기관·장소 키워드를 분리해 그들 사이의 관계도를 그래프로 보여준다.

 

 이용자는 특정 키워드가 뉴스 속에서 어떤 인물과 기관, 장소와 함께 언급이 됐는지 재맥락화된 정보를 얻을 수 있다.

 

 이 외에도 특정 주제와 관련해 어떤 인물이 뉴스 속에서 발언을 많이 했는지, 어떤 발언을 했는지 등을 뽑아 보여주는 정보원 분석서비스와, 특정 키워드가 연도별로 얼마나 언급됐는지를 계산해주는 이슈 트렌드서비스도 제공한다. 이러한 서비스의 특징은 이용자가 뉴스를 좀 더 구조적인 맥락으로 바라볼 수 있게 한다는 것이다. 이를 통해 개별 뉴스만을 소비하던 이용자는 능동적으로 뉴스를 분석하는 참여자로 변화할 수 있다



빅카인즈 키워드 분석- 예시 : 기준금리



전문가를 위한 '빅카인즈-프로(가칭)'


 전문가용 비스는 기자, 학자 등 전문가를 대상으로 제공된다. 서비스명은 빅카인즈-프로(BIG KINDS-Pro)(가칭)이다. 빅카인즈-프로(가칭)에서는 좀 더 상세한 분석 조건을 설정할 수도 있고, 분석한 자료를 내려받을 수도 있다. 일반인용 서비스와 구별되는 가장 큰 특징은 '텍사노미' 관리 기능이다. 텍사노미란 단어 간 분류체계를 만들어 놓은 일종의 단어사전이다. 예컨대 '한국 대통령' 이란 텍사노미를 만들어두고, 해당 텍사노미에 역대 한국 대통령 이름을 모두 저장하는 식이다. 이렇게 저장된 텍사노미는 대통령 이름이 등장한 뉴스만을 검색하는 등 필요한 뉴스만을 뽑아내는 데 사용할 수 있게 된다. 



전문가용 서비스 '빅카인즈-프로(가칭)' 메인화면



뉴스 빅데이터의 가치


 론 한계는 있지만 뉴스 데이터에 분석 가치를 부여한 첫 시도라는 점에서 뉴스 빅데이터 분석 시스템이 가지는 의미는 크다. 단순 조회용으로 소비됐던 뉴스 콘텐츠가 유용한 정보를 담고 있는 원석으로 변화할 계기다.

 

 [각주:2]빅데이터는 인문학을 바꾸고, 사회과학을 변형시키고, 상업 세계와 상아탑 사이의 관계를 재조정할 것이다 뉴스는 그 시대의 문화와 사회, 역사를 담고 있는 보고다. 이 데이터를 잘만 활용하면 우리는 주변에서 발생하는 여러 사회현상들에 대한 통찰력을 얻을 수 있게 될지 모른다. 더 나아가 역사와 문화, 인문학과 사회과학에 적용될 수 있는 해석도구로서 뉴스 빅데이터가 쓰이게 될 수도 있다.



빅카인즈 활용 사례- 동아일보 '빅데이터로 본 한국의 기분문화'


동아일보 노지현 사회부 기자의 글입니다.


 한국언론진흥재단이 구축한 뉴스 빅데이터 중 1995~2015년 '기부'와 관련된 기사 19만 건을 추출했다. 인터넷 뉴스까지 모두 합칠 경우 30만 건에 육박하지만 중복되는 경우가 많아 신문 지면으로 나온 19만 건으로 한정했다. 이 기사들을 소셜 빅데이터 분석 업체인 인사이터와 함께 분석했다. '기부'와 가장 많이 연관되어 있는 단어들을 분류하고, 연도별로 특히 많이 나온 인물이나 사건이 있는지를 살펴보았다.


 기부 관련어로 가장 많이 쓰인 단어 상위 50위씩을 뽑아보니, 기부의 이미지는 확연히 달라졌다. 1995~2000년에는 정치자금, 비리, 정치인, 선관위, 불법, 후원금, 검찰수사와 함께 쓰였다. 이는 정치인들이 불법으로 정치자금을 받거나 논란이 있는 돈을 받는 관행을 기부라고 해명하는 일이 많았기 때문이다. 기부의 이미지가 긍정적으로 변한 것은 2006년부터였다. 학생, 불우 이웃, 소외계층, 장학금, 사회적 기업 등 긍정적인 관련어들이 상위권을 채웠다. 흥미로것은 2011년 이후부터 재능기부에 대한 주목도가 높아졌다는 점이다. 기부가 꼭 돈이 아니어도 할 수 있는 것이란 인식이 일반인들 사이에도 자리 잡은 것이다.



'어린이' '아프리카' 에 기부자 지갑 열렸다


 뉴스 빅데이터와는 별도로 일반인들이 20081월부터 201511월까지 작성한 소셜 네트워크서비스(SNS) 650만 건을 수집해 분석한 결과 기부와 함께 가장 많이 언급된 대상은 어린이’(아동 포함)이었다. 이 기간 동안어린이의 누적 언급량은 318,755건으로 장애인(34,927)’ ‘노인(29,463)’ 누적 언급량의10배에 육박했다.


 국세청에 공시된 2008년과 2014년 개인 기부금 모금액을 비교해 보면 이 기간 아이들과미래20억 원에서 109억 원으로 445% 성장했다. 이어 세이브 더 칠드런’(354%)유니세프’(330%), ‘한국컴패션’(308%)300% 이상의 성장률을 보였으며 월드비전’(155%), ‘초록우산어린이재단’(104%)도 모금액이 2배 이상으로 늘어났다.

 

 이 같은 온오프라인 취재를 바탕으로 동아일보는 빅데이터로 본 한국의 기부 문화·하편을 2016129일자와 21일자에 보도했다. 뉴스 빅데이터는 취재팀에게 많은 정보를 주었다. 어떤 사람들을 만나 이야기를 들어야 할지, 어떤 사건을 중심으로 취재를 해야 할지를 알려줬다는 점에서 뉴스 빅데이터는 네비게이션과 같은 역할을 충분히 해줬다.

 



  1. 스트럭처 저널리즘(structured journalism)은 정보를 비트와 조각으로 쪼갠 후 다양한 방식으로 다시 섞고 짜 맞추는 저널리즘을 말한다. 스트럭처 저널리즘의 가장 큰 특징은 ‘재맥락화’ 이다. 인물, 인물의 인용구, 사건·사고 등 뉴스 속 정보들을 새로운 사실과 정보와 연결해 의미와 가치를 만들어낸다. [본문으로]
  2. 에레즈 에이든·장 바티스트 미셸, ‘빅데이터 인문학’(김재중 옮김, 사계절, 2015, 17쪽). 이 책의 저자는 빅데이터의 사례로 구글이 구축한 3,000만 권의 디지털 책을 꼽는다. 그리고 책 속 키워드 빈도를 뽑아내는 구글의 ‘엔그램 뷰어’ 서비스로 역사, 문화, 사회에 이르는 방대한 분석을 내놓는다. ‘디지털 책 데이터’가 ‘뉴스 데이터’ 로 바뀌었을 뿐, 구글의엔그램 뷰어 서비스는 빅카인즈 서비스와 별반 다르지 않다. 빅카인즈도 수십 년간 쌓아온 뉴스 속에서 키워드 빈도를 뽑아내는 ‘이슈 트렌드’ 서비스를 제공하고 있다. [본문으로]