이슈 기사, 언론사가 달라도 제목이 비슷한 이유는?

2015.02.25 09:00다독다독, 다시보기/기획연재

출처_ 네이버 뉴스스탠드 



‘포털 알고리즘 분석’이 네이버 핫토픽 키워드 1위에 막 진입했다고 가정해 보겠습니다. 여러분이 지금 읽고 있는 이 특집 기사를 정확도 기준으로 네이버 뉴스 검색 상단에 보이게 하려면 어떻게 해야 할까요? 생각보다 어렵지 않습니다. 기사 가장 마지막 부분에 다음 문단을 추가해 핫토픽 키워드 개수를 늘리면 됩니다. 


포털 알고리즘 분석을 접한 누리꾼은 ‘포털 알고리즘 분석, 속 시원하네’ ‘포털 알고리즘 분석, 와’ ‘포털 알고리즘 분석, 그럴줄 알았다’ ‘포털 알고리즘 분석, 여전히 어렵네’ 등의 반응을 보였다.



 더 노골적으로 처절해진 어뷰징


기사 도입부에 ‘포털 알고리즘 분석, 포털 알고리즘 분석, 포털 알고리즘 분석, 포털 알고리즘 분석’과 같이 핫토픽 키워드를 몇 번 반복해 삽입하면 확률은 더 올라갑니다. 물론, ‘국내 포털 알고리즘 분석, 비밀을 파헤쳐 보니’ 같은 핫토픽 키워드가 들어간 제목을 다는 것을 잊어선 안 되죠. 실시간 급상승 검색어 대신 핫토픽 키워드를 반복 삽입하는 행태는 지난해 12월 5일 네이버가 뉴스 검색 결과 노출을 클러스터링(특정 키워드와 관련한 뉴스를 건별로 나열하지 않고 중심 기사와 관련 기사로 묶어 제공하는 방식) 방식으로 개편하면서 더욱 빈번히 쓰이고 있습니다. 현장은 더욱 노골적이고 철저한데요. 단순히 핫토픽 키워드 상위 5개를 그대로 붙여 제목에 나열해 송고한 기사가 특정 키워드 검색 결과에서 당당히 1위를 차지하는 경우도 왕왕 나타납니다[그림1]. 네이버의 뉴스 검색 시스템 개편 직후 달라진 검색 결과 패턴에 적지 않은 언론사 담당자들이 당황했지만, 이내 클러스터링 방식에서도 어뷰징 방법을 찾아내 적용하고 있습니다.


어뷰징 유형의 기사는 오로지 자사의 기사를 포털 뉴스 검색 결과 상위에 노출하기 위해 ‘실시간(급상승) 검색어’, ‘핫토픽 키워드’ 등을 변칙적으로 사용해 작성합니다. 거의 10년 가까이 포털이라는 숙주에 기생하며 트래픽을 먹이 삼아 국내 저널리즘 생태계를 파괴하고 있는데요. 포털 역시 언론사의 검색 어뷰징을 막기 위해 대응 정책을 세우고 기술적으로 검색 알고리즘을 변경·개선하며 대처하고 있지만, 근본적인 해결은 요원한 상태입니다. 


뉴스 검색 알고리즘을 통해 현재와 같은 키워드 반복형 어뷰징 기사를 걸러내는 것은 어려운 일이 아닙니다. 대부분의 검색 엔진은 유인 키워드 반복(keyword stuffing)을 발견하면 비윤리적 불량 문서로 판정해 검색 결과에 표출하지 않는 로직을 지니고 있습니다. 유독 뉴스 검색에서만 이러한 로직이 작동하지 않는 이유 속에는 기술적 요소보다 정무적·정서적 요소가 더 강하게 자리 잡고 있죠. ‘키워드 반복형 어뷰징 기사 감지 → 검색 결과에서 해당 기사 배제 → 기사 노출 감소량을 파악한 해당 언론사의 즉각적인 항의’가 공식처럼 작동합니다. 포털의 임의적인 자사 기사 제어 방식에 동의하지 않는 언론사의 ‘갑’ 정서는 어뷰징을 노골적으로 행하는 뻔뻔함으로 이어집니다.



[그림1] (A)2015년 1월 28일 20시 핫토픽 키워드 1~5위 목록 중 1위 키워드인 ‘123정장 징역7년 구형’을 검색해 봤습니다. (B)그 결과 핫토픽 키워드 1~5위 키워드를 단순 나열한 제목으로 네이버에 송고된 기사가 정확도순 가장 상위에 노출됐습니다. 정작 해당 키워드를 제대로 다룬 기사(파란색 테두리)는 두 번째 클러스터링으로 밀려나 있죠. (C)검색 순위 1위 기사는 핫토픽 키워드 1~5위가 제목, 사진 캡션, 본문 서두에 반복해 나열돼 있습니다.


출처_ 신문과 방송 2월호 (이하 출처 동일)



 막연한 평가 기준이 문제


누구나 동의할 수 있는 고품질 기사가 검색결과 상단에 노출되는 것을 싫어할 언론사는 없습니다. 언론사가 포털의 뉴스 검색 노출 순위에 의심을 품고 비합리적이고 비윤리적이까지 한 어뷰징 기사를 생산해 송고하는 이유는 검색 결과의 공정성과 투명성에 대한 포털-언론사 간 신뢰 구조가 확실하지 않기 때문입니다. 포털의 뉴스 검색 결과 도출 과정, 즉 검색 알고리즘의 신뢰성을 대외적으로 높여 언론사가 동의할 수 있는 수준으로 끌어올리는 것은 이러한 문제를 해결하는 한 방법입니다. 


하지만 검색을 핵심 역량이자 사업모델로 소유한 포털에서 검색 알고리즘 자체를 공개하는 것은 어불성설입니다. 대신 고품질 검색 결과를 내기 위해 필요한 검색 속성을 일정 수준선에서 제시해 주는 것은 가능할 수도 있습니다. 단순히 알려줄 수 있는 정보가 ‘키워드 매칭 확률이 높을수록 유리하다’ 정도라면 언론사는 지금처럼 키워드 반복형 어뷰징 기사만 주야장천 양산할 수밖에 없습니다. 국내 양대 포털인 네이버와 다음은 언론사와 뉴스 검색 제휴를 진행하기 위한 나름의 정량·정성적 기준을 제시하고 있습니다[표]. 하지만 이 자체는 검색 품질 요소를 안내한다기보다 검색 서비스에 진입하는 조건에 더 가깝죠. 또한, 신규 혹은 재계약 시점에서 하는 평가라 지속적인 기사 품질 모니터링에는 한계가 있습니다. 정량적 지표는 종류도 적은 가운데 구체적인 범위가 명시돼 있지 않은 게 상당수입니다. 정성적 요소의 경우, 정보 공개 수준 또한 매우 낮고 주관적이라 어느 선에서 평가가 이뤄지는지 막연하게 짐작하기도 어려운 상태랍니다. 



[표] 네이버와 다음의 뉴스 검색 제휴 평가 심사 기준 (2015. 1. 26. 확인)



 구글, 뉴스 송고 시각에 가중치


뉴스 검색 노출 순위를 결정하는 알고리즘 안내의 방향과 기준을 고민하는 데는 이미 알려진 타사 사례를 살펴보는 것도 도움이 됩니다. 구글은 지난 2013년 12월 24일에 출원하고 2014년 7월 3일 특허 출원 문서 ‘뉴스 기사 랭킹 개선을 위한 시스템과 방법(US2014018859)’을 공개했습니다. 이 문서를 통해 선도적인 검색 기술 회사에서 뉴스 랭킹을 다룰 때 어떤 요소를 고려하는지 엿볼 수 있는데요. 뉴스의 가장 대표적 속성인 ‘속보성’을 평가하는 과정을 보면 출원한 랭킹 알고리즘은 4가지 과정을 거친 뒤 최종 속보 점수를 계산합니다. 그 중 제일 인상 깊은 것은 뉴스 송고 시각 데이터를 사용해 속보성에 가중치를 부여하는 첫 번째 단계입니다. 속보성의 판단은 뉴스 송고 시각이 얼마나 빠른가를 기준으로 합니다. 같은 사건에 대해 쏟아져 나오는 기사 중 어떤 것이 보도 속도가 빠른가 판단하는 방법은 [식]과 같습니다.



[식] 구글 특허 출원 문서에 소개된 속보 점수 공식(단, 0<T<N1)



T값이 N1값보다 크다면 속보 효력이 사라진 임계 시각을 넘어서 기사가 나왔다는 것을 의미하므로 속보 점수는 0이 됩니다. 0<T<N1 범위라면 속보 점수는 [식]과 같이 계산되죠. 눈여겨볼 점은 점수가 로그함수 형태라는 것입니다. 이를 그래프로 시각화하면 [그림2]와 같습니다. 여기에서 볼 수 있듯이 최초 보도 기사와 시간 차이가 크게 날수록(=T값이 커질수록, =N1/T값이 0에 가까워질수록) 점수는 급격하게 줄어듭니다. 보도 시간 차이가 적은 기사끼리는 랭킹 점수 차를 좁혀 초 단위 시 차이 때문에 랭킹 점수의 편차가 크게 발생하는 것을 막고 있죠. 반면에 보도 시간 차가 큰 기사일수록 랭킹 점수 차를 늘려 빠른 보도를 한 기사 그룹에 상대적으로 높은 점수를 보장해 줍니다. 단, T=0 즉, 해당 사건 속보가 단 한 건밖에 없을 땐 log(N1) 값을 속보 점수로 처리합니다. 속보 점수 측정은 여기서 그치지 않고 세 가지 다른 과정을 통해 다시 한번 측정 대상 기사군(cluster)을 분석하고 개별 기사에 최종 속보 점수를 부여합니다.


국내 포털에서도 이 정도의 알고리즘을 공개적으로 안내한다면 어떨까요? 지금처럼 명목 문구로 가득 채운 안내보다는 훨씬 더 언론사에 신뢰감을 줄 수 있을 것입니다. 언론사에 포털 알고리즘이 투명하다는 인상 역시 심을 수 있습니다. 이런 유형의 알고리즘이 작동한다는 것을 언론사가 인지한다면, 화제 이슈가 발생했을 때 ‘1 보 기사’를 무차별적으로 베껴서 송고하는 지금의 상황도 조금 더 개선될 수 있습니다. 일정 부분 알고리즘을 안내하는 것이 제2, 제3의 어뷰징 기법을 낳는 원인이 될 수도 있지만, 고품질 뉴스 검색 결과의 전제가 되는 고품질 뉴스 문서량을 더욱 풍부하게 하는 명쾌한 가이드라인으로 작동할 수도 있습니다.



[그림2] 구글 뉴스 랭킹 특허 출원 문서에서 설명하는 속보 점수 부여 함수와 이를 바탕으로 그린 그래프(N1 = 속보로서 효력이 사라진 임계 시각 - 최초 보도 기사 송고 시각, T= 측정 대상 기사 송고 시각 – 최초 보도 기사 송고 시각) ⓒ한운희



 언론사도 자체 알고리즘 개발해야


어뷰징과 뉴스 검색 알고리즘의 지루한 숨바꼭질 이면에는 포털 의존적 뉴스 유통이 크게 자리하고 있습니다. 포털 의존도를 급격히 낮추기는 어렵지만 긴 호흡을 가지고 점진적으로 낮추려는 노력이 언론사에 필요하죠. 어뷰징 기법을 고민하는 대신 포털로부터 자사 웹페이지로 유입된 뉴스 수용자를 더 오래 머무르게 하는 전략을 더욱 고도화해야 합니다[그림3]. 포털 알고리즘을 리버스 엔지니어링(reverse engineering)하려고 노력할 게 아니라 언론사 자체 뉴스 분석 알고리즘을 개발하고 최적화하는 연구에 힘을 쏟아야 합니다. 자사 웹페이지로 들어온 뉴스 수용자의 사이트 이용 패턴을 정밀히 분석해 각 개인에 최적화한 기사를 노출하는 것은 경쟁력 있는 언론사라면 꼭 갖춰야 할 요건입니다. 


뉴스 수용자가 포털이 아닌 언론사 사이트 내에서 검색한 키워드를 체계적으로 분석해 이를 다시 기사 제작에 녹여내는 시도도 해봄직합니다. 특정 언론사를 직접 찾아온 뉴스 수용자가 일정 시점에서 주로 관심 있어 하는 기사가 무엇인지, 어떤 질문을 해결하기 위해 언론사를 찾았는지 명확히 알고 작성한 기사는 소비 대상을 적확히 겨냥할 수 있습니다. 이 과정이 잘 이뤄진다면, 뉴스 수용자의 개별 언론사 방문 빈도와 머무르는 시간이 늘어나는 것은 물론 포털 검색 엔진이 선호하는 고품질 뉴스 문서의 양도 동시에 늘어날 수밖에 없습니다.



[그림3] 포털 의존도를 낮추려면 포털(p)에서 유입한 뉴스 수용자(I0)가 다시 포털로 돌아가는 것(R0, 1, 2, 3)이 아니라 언론사 웹 페이지(m)에 오래 머물게 하는(T1, 2, 3) 전략이 꼭 필요합니다. 이를 위해서는 전이 상태(t; transition state)에 놓인 뉴스 수용자를 a, b, c 경로로 유도할 언론사 자체 뉴스 분석 알고리즘을 잘 짜야 합니다. ⓒ한운희



생태계의 발전은 구성원 모두가 튼튼한 가운데 본연의 역할을 충실히 감당할 때 비로소 시작됩니다. 미디어 생태계 구성원으로서 언론사, 포털 모두가 건강한가요? 언론사, 포털 모두가 자기 역할에 충실한가요? 자신 있게 답할 수 없다면 다시 한번 각자의 건강 상태를 확인 해보고 각자의 역할을 재점검 해야 합니다. ‘어뷰징’과 ‘뉴스 검색 알고리즘’ 역시 그 점검 항목 중 하나입니다. 



ⓒ 다독다독


위 내용은 한국언론진흥재단 <신문과 방송 2월호>에 실린

한운희 / 연합뉴스 미디어랩 기자의 글을 옮겨온 것입니다.