‘스몰데이터’부터 차근차근 꾸준하게

2015. 4. 15. 14:00다독다독, 다시보기/지식창고


ⓒSteve Jurvetson 출처:flickr.com



위 내용은 한국언론진흥재단 <신문과 방송 2015년 4월호>에 실린 함형건 / YTN 정치부 기자의 글을 옮겨온 것입니다.


천리길도 한걸음부터


용어에 대한 오해부터 바로잡고자 합니다. 데이터 저널리즘이란 말이 탄생한 배경에는 시시각각 생산되는 천문학적 규모의 디지털 데이터, 즉 빅데이터 시대가 자리 잡고 있지만, 기자들이 뉴스룸에서 활용하게 될 대부분의 데이터는 빅데이터라기보다는 ‘스몰데이터’에 가깝습니다. 일반적으로 전문가들이 말하는 빅데이터와 언론계의 빅데이터 활용 개념에는 의미상의 차이가 있는 것입니다.


데이터 작업을 처음 시작하는 기자라면, 가장 쉽고 간단한 작업부터 시작해야 합니다. 특히 어렵지 않게 구할 수 있는 출입처의 자료, 스프레드시트 행수가 대략 1만 개 미만인 데이터 시트나, 주변에서 쉽게 얻을 수 있는 텍스트 자료 등 ‘작은 데이터’에서 첫발을 내디디라고 권유하고 싶습니다. 일례로 필자의 데이터 작업은 ‘단어 구름’ 만들기에서 시작됐습니다. 당시 미국 대통령 선거에서 맞붙은 오바마 민주당 후보와 롬니 공화당 후보, 두 정치인의 후보 수락연설문을 단어 구름으로 만들어 보니, 영어 텍스트상에서는 보이지 않던 확연한 차이가 드러났습니다. 애국주의에 호소한 롬니는 ‘미국’이란 단어를 50번도 넘게 사용한 반면, 오바마는 ‘새로운’, ‘미래’ 같은 어휘를 20여 번씩 구사한 게 눈에 들어왔습니다.



2014년 3월 5일 리퍼트 대사 피습 관련 트위터 글 단어구름(왼쪽)과, NodeXL로 북한 권력 사회연결망 분석하는 화면(오른쪽). 출처_ 신문과방송 2015년 4월호


무료 소프트웨어로 시작하라


고맙게도 요즘 도구 가운데는 한 푼도 들이지 않고 쉽게 사용할 수 있는 경우도 많습니다. 소스를 공개해 누구나 개발자로 참여할 수 있게 만든 오픈소스 프로그램 중에 특히 무료 소프트웨어가 많습니다. GIS 소프트웨어인 QGIS, 네트워크 시각화 소프트웨어 노드엑셀(NodeXL)과 게피(Gephi), 데이터 정제 소프트웨어 오픈 리파인(Open Refine) 등이 대표적입니다. 엑셀 프로그램이 PC에 설치되어 있지 않았다면, 오픈 오피스 캘크(Open Office Calc) 사용을 권합니다. 엑셀과 거의 동일한 기능을 사용할 수 있습니다. 여기에 갖가지 온라인 도구와 파이선이나 R과 같은 컴퓨터 프로그래밍 언어를 자신의 도구 박스에 추가하면 데이터 작업에 날개를 다는 격이 될 것입니다.



노드엑셀은 마이크로소프트의 엑셀 프로그램의 플러그인 형태로 제공되는 오픈소스 프로그램입니다. ⓒMarc Smith 출처_flickr.com



수준에 맞는 도구에 단계별로 도전하라


자신의 수준과 필요에 맞는 도구부터 차근차근 학습하고 사용해가기를 권해드립니다. 데이터 시각화의 세계를 맛보고 싶다면 매니 아이스(Many Eyes)와 데이터 랩퍼(Data Wrapper) 같은 온라인 도구로 시작할 수 있습니다. 온라인 기반의 이같은 도구는 몇 분만 투자하면 누구나 쉽게 예쁘고 훌륭한 인터랙티브 차트를 그릴 수 있습니다. 인포그램(Infogr.am)으로는 아이콘과 문자를 동반한 인터랙티브 차트를 뚝딱 제작할 수 있습니다. 시간에 따른 뉴스의 추이를 인터랙티브 타임라인으로 시각화하고 싶다면, 타임라인JS(Timeline JS)를 추천합니다.


이 정도의 작업에 만족하지 못한다면, 태블로 퍼블릭(Tableau Public)과 노드엑셀 혹은 게피에 도전해보길 바랍니다. 데이터 시각화의 만능 도구인 태블로 퍼블릭의 기능은 5분 정도면 익힐 수 있는 간단한 차트에서부터, 꾸준한 학습이 필요한 고급 분석 기능까지 그 난이도가 다양합니다. 엑셀에 연동해 사용하는 노드엑셀 역시 사회연결망 분석의 진입장벽을 크게 낮췄다고 평가해도 좋을 만큼 편리한 사용자 환경을 제공합니다. 특히 노드엑셀은 트위터 API를 활용한 데이터 수집도 탁월한 기능을 제공합니다.


프로젝트를 배움의 기회로 삼아라


갖가지 분야를 아우르는 데이터 활용 보도는 프로젝트를 시작할 때마다 새로운 지식과 기법을 익혀야 하는 경우가 많다. 또 익숙한 도구라도 사용합니다. 보면 수없이 많은 문제나 에러 메시지와 맞닥뜨리기 일쑤이다. 필자는 스스로 해법을 찾아내거나, 국내의 전문가에게 문의하고, 이도 저도 안 되면 해당 분야의 구글 그룹과 같은 사용자 커뮤니티에 관련 질의를 하곤 했습니다. 질문을 인터넷에 올린 지 불과 몇시간 만에 태평양 너머 얼굴도 모르는 데이터 저널리스트에게서 친절하고 상세한 답변을 받는 신기한 경험을 하기도 했습니다. 매번 최신 정보와 기법을 배우고 익히면서 끊임없이 배우고 도전해 나가는 것이 데이터 저널리즘 분야의 최대 매력인지도 모릅니다.


나만의 보물창고를 찾아라


인터넷은 데이터 저널리즘의 바이블이라는 말이 있습니다. 데이터 활용 보도는 출판된 종이 문헌은 찾기가 쉽지 않지만, 인터넷에서는 필요한 최신 알짜 정보를 어렵지 않게 구할 수 있습니다. 특히 외국 언론 관련 기관이 제공하는 교육 자료를 눈여겨봐야 합니다. 대표적으로 미국 버클리대 저널리즘스쿨의 KDMC(Knight Digital Media Center)에서 제공하는 학습 자료와 학생과 기자, 시민단체 관계자에게 공공데이터 활용법을 교육하고 전파하는 스쿨 오브 데이터(School of Data)의 무료 공개 자료가 유용합니다. IRE에서 공개하는 각종 팁시트와 CAR 콘퍼런스 특강 자료, CIJ(The Center for Investigative Journalism) 자료실도 빼놓을 없습니다. 저널리스트이자 프로그래머인 응웬의 홈페이지인 스몰데이터저널리즘(smalldatajournalism.com) 가장 다양하고 풍부한 서적과 문헌 목록을 소개하고 있습니다.


학습과 입문 방법이 무엇이든 분명한 한 가지는 어디에나 쉽게 통하는 ‘마법의 탄환’ 같은 비법은 없다는 점입니다. 용기와 자신감을 갖고 공공데이터 활용 보도의 세계에 뛰어들되, 단번에 “그래 이거야!”하는 느낌표를 기대하기보다는 “이게 무슨 의미가 있지? 어떻게 해야 하나?” 하는 물음표를 끊임없이 품으면서 목표를 향해 전진하면, 조금씩 성장하는 자기 자신을 발견할 수 있을 것입니다.


ⓒ 다독다독