통계·그래프의 숨겨진 진실 찾아내는 ‘데이터 리터러시’
통계·그래프의 숨겨진 진실 찾아내는 ‘데이터 리터러시’
언론 보도 속 데이터 바로 읽기
언론에는 각종 ‘숫자’가 많이 등장한다.
특히 올해처럼 중요한 선거가 있을 때는 여론조사 보도를 자주 접할 수 있다.
또 코로나 팬데믹으로 인해 사망자 수, 백신 접종 비율 등도 매일 보게 된다.
숫자는 가장 객관적인 정보라 생각되지만, 그러한 우리의 믿음을 배신하는 경우도 있다.
숫자, 데이터에 속지 않고 제대로 읽기 위해 ‘데이터 리터러시’에 관심을 가져볼 때이다.
박준석 (데이터과학자, 《가짜뉴스의 심리학》 저자)
데이터 시각화에서는 한 가지 금과옥조가 있는데 막대그래프의 Y축은 0에서 시작해야 한다.
이를 지키지 않았을 때 막대들 간의 비율이 실제와 맞지 않는다.
이를 악용해 막대 사이의 차이를 실제보다 더 크게 보이게 할 수 있는데, 이는 속칭 ‘데이터 마사지’에 가까운 활동이다.
현대 사회는 정보의 홍수로 몸살을 앓고 있다. 그런데 여기서 ‘홍수’라는 표현은 단지 그 양이 많아졌음을 의미하는 것이 아니다. 중요한 사회적 정보의 획득 및 분배 과정이 소수의 언론사 및 단체에 집중되어 있던 과거와는 달리, 현대 사회는 구성원 각자가 정보의 생산자 및 수용자로서 소셜 미디어 등을 통해 직접 그 유통 과정에 참여하고 있다. 또한 과거에 비해 정보, 특히 뉴스 생산자 자체가 중립적인 정보 전달자의 역할보다는 특정 진영 및 정파의 입장을 숨김없이 대변하며 각종 정치 및 사회 현상을 입맛에 맞게 해석하고 있는 것이 현실이다.
이런 혼탁한 현실 속에서 사회 구성원들이 지혜롭게 정보를 선택하고 소비하는 것은 민주 사회가 존립하기 위한 중요한 조건이라 할 수 있다. 실제로 서구 사회를 중심으로 ‘자유 민주주의’의 위기에 대한 우려와 진단이 쏟아지고 있는 상황이며, 더불어 진영 논리, 소셜 미디어 및 정보의 취사선택에 대한 이야기는 빠짐없이 등장하는 소재다. 국내에서도 관련 논의가 활발하게 이루어지고 있는 것 같다.
데이터에 대한 대중의 인식
필자는 이러한 정보 중에서 특히 ‘데이터(data)’라는 형태의 정보에 주목해 왔다. 데이터를 한마디로 정의하기는 쉽지 않지만, 이 글에서 말하는 데이터는 주로 양적 정보를 의미한다. 이를 흔히 ‘통계’라 부르기도 한다. 각종 사회경제적 지표(소득, 출산율, 연령 등), 최근 이슈가 되고 있는 방역 관련 지표(백신 접종자/미접종자 별 위중증 진행 비율, 치명률 등) 및 그 외 각종 자료가 여기에 해당한다. 데이터는 공적으로 유통되는 정보 가운데 상당한 비중을 차지하고 있지만 그 중요성에 대한 인식 수준은 상대적으로 낮은 현실이다. ‘미디어 리터러시’라는 말은 본 글이 실리게 될 웹진 이름에서도 알 수 있다시피 우리 사회에서도 어느 정도 알려져 있지만, ‘데이터 리터러시’라는 말은 아직 상대적으로 생소하다. 사실 학계에서도 데이터 리터러시라는 말을 사용한 지 그리 오래되지 않은 것 같다. 그러나 공적으로 유통되는 정보에서 데이터가 차지하는 비중은 무시할 수 없기 때문에 이제는 우리 사회도 대중이 데이터를 받아들이고 해석하는 측면에 관심을 가질 때가 됐다.
데이터 리터러시는 다른 유형의 미디어 리터러시에 비해 다소 특수한 능력을 요구하며 따라서 별도의 훈련이 필요하다. 다행히도 미디어를 소비하는 사람들이 사용할 수 있는 몇 가지 체크리스트가 있다. 이 글에서는 그중 몇 가지를 소개하고자 한다. 미디어, 특히 언론에 제시된 데이터를 소비하는 사람들에게 도움이 됐으면 하는 바람이다.
우선 데이터에 관해 이야기하기 전에 보다 일반적으로 미디어 독해에 적용되는 원칙 하나를 짚고 넘어가려 한다. 이제는 우리 사회에도 널리 알려져 일상어처럼 사용되는 심리학적 개념 하나가 있다. 바로 확증 편향(confirmation bias)이다. 확증 편향은 스스로의 믿음을 반박하는 증거는 무시하고, 지지하는 증거만을 받아들이려 하는 일종의 인지적 편향이다. 확증 편향에 빠진 사람은 관련 증거를 충분히 수집하고 합리적으로 검토하기보다는, ‘내 편’을 지지하는 증거만을 취사선택하여 받아들이게 된다. 문제는 이 과정에 흔히 감정적 요인이 개입한다. 한국과 같이 극한의 정치적 대립 상황이 존재하고 그 과정에서 유력 정치인의 죽음과 같은 극적인 상황이 일어난 역사를 가진 사회에서는 그럴 위험이 더욱 클 것이다. 이런 상황에서는 차분히 데이터를 들여다보기보다 자기 입장을 강화하는 데이터만을 선택적으로 강조하기 쉽다. 말하자면 데이터 자체가 일종의 진영 논리를 위한 무기가 되는 것이다. 데이터를 들여다볼 때도 확증 편향을 경계해야 올바른 해석이 가능하다.
시각화 자료에 숨은 함정
필자는 한때 미디어에 등장하는, 잘못됐거나 의도가 숨어 있는 것으로 보이는 잘못된 데이터 시각화 자료를 모아 소개하는 ‘통계불편러’라는 페이스북 페이지를 운영한 적이 있다. 페이지에 업로드할 자료를 찾는 것은 사실 어렵지 않았다. 포털 등에서 기사를 검색하면 매우 쉽게 사례를 찾을 수 있었다. 지금도 상황이 크게 나아졌는지는 잘 모르겠다. 하지만 시각화는 쉽게 눈에 띄고 때로 자극적인 메시지를 전달할 수 있기 때문에 주의해서 독해해야 한다. 여기서는 두 가지 유의할 점을 소개하고자 한다.
첫째는 ‘Y축 해킹’이다. 여기서 ‘해킹’이란 부자연스럽게 인위적 조작을 가했다는 의미로, Y축 해킹은 세로축에 조작을 가해 데이터를 있는 그대로가 아닌 다르게 보이도록 만들었다는 뜻이다. 데이터 시각화에서는 한 가지 금과옥조가 있는데 막대그래프의 Y축은 0에서 시작해야 한다. 이를 지키지 않았을 때 발생할 수 있는 심각한 문제는 막대들 간의 비율이 실제와 맞지 않는다는 점이다. 이를 악용해 막대 사이의 차이를 실제보다 더 크게 보이게 할 수 있는데, 이는 속칭 ‘데이터 마사지’에 가까운 활동이다. 이런 이유로 어떤 통계 소프트웨어에서는 아예 Y축의 시작점을 바꿀 수 있는 옵션 자체를 제공하지 않는다.
예를 들어 어떤 두 집단의 연평균 소득이 각각 2,500만 원과 3,000만 원이라고 가정해 보자. 그러면 이들의 실제 비율은 1대 1.2로, 후자가 전자에 비해 20% 크다. 그런데 이 막대그래프의 Y축 시작점을 2,000만 원으로 하면 자료가 주는 인상은 사뭇 달라진다. 2,500만 원은 2,000만 원에 비해 500만 원 크고, 3,000만원은 1,000만 원 크다. 이렇게 막대를 그려 놓으면 후자는 전자에 비해 두 배 커 보일 것이다. 실제 차이는 20%인데도 말이다.
이런 수법(?) 뒤에는 실제 차이를 더 커 보이게 만들기 위한 의도가 있는 것 아닌가 하는 의심마저 든다. 문제는 이런 수법을 알아차리기 쉽지 않다는 것이다. 제한된 시간 안에 흥미 위주로 언론 기사를 소비하는 독자는 Y축이 어디서부터 시작하는지 세심하게 눈여겨보기보다는 막대 길이를 비교하는 선에서 그칠 가능성이 높다. 따라서 이런 독자들에게 기사는 실제보다 더 자극적인 정보를 전달할 것이다. 꺾은선그래프 등도 똑같은 문제를 안고 있다. 지지율 추이 등을 시각화한 자료에서 Y축의 시작점을 어디에 두느냐에 따라 자료가 주는 인상이 완전히 달라질 수 있다.
둘째는 3차원 시각화 자료다. 데이터 시각화에서 흔히 3차원 시각화를 사용하지 말라고 한다. 막대그래프, 파이 차트 등에서 흔히 3차원 시각화가 사용되는데 이런 방식은 실제보다 데이터를 왜곡할 수 있다. 2차원에서는 길이, 면적이라는 직관적인 방식으로 정보를 전달하지만, 3차원에서는 ‘부피’라는 다소 애매한 형식을 사용하게 되고 이는 착시를 불러와 실제 비율이 왜곡되어 보인다. 동일한 데이터를 2차원 또는 3차원으로 제시한 자료들을 비교해 보면 쉽게 알 수 있다. 따라서 3차원으로 제시된 자료 또한 주의해서 보아야 한다.
사실 3차원 시각화에 대한 선호는 광범위한 듯하다. 3차원 시각화 자료를 사용했을 때 얻을 수 있는 시각적 화려함 때문에 언론사뿐 아니라 사기업 등에서도 이를 선호하는 경우가 있다. 그러나 되도록 3차원 방식은 사용하지 말고, 2차원 자료를 간편히 볼 수 있는 방식으로 제시하는 것이 바람직하다. 사실 3차원 차트는 ‘차트정크(chartjunk)’라 불리는 것의 일종으로, 시각화 자료에 불필요한 요소를 삽입하여 핵심인 데이터 자체보다 부차적 요소에 눈길이 가게 만드는 것을 의미한다. 음영, 색깔, 장식 등이 여기에 해당하며 이런 요소가 포함된 자료를 볼 때는 숫자 자체에 집중하고 나머지는 무시하는 편이 바람직하다. 물론 생산자가 애초에 이런 요소를 시각화에 삽입하지 않는 것이 가장 바람직하겠다.
비율을 볼 때는 분모가 중요해
비율은 미디어 수용자를 혼란에 빠뜨리기 아주 쉬운 소재라 할 수 있다. 비율은 언제나 ‘분모 중 분자’의 형식으로 제시되는데, 분모를 무엇으로 설정하느냐에 따라 그 해석이 완전히 달라질 수 있다. 좋지 않은 의도를 가진 쪽에서 자신의 입맛에 맞게 분모를 고를 수도 있기 때문에, 수용자 측에서는 항상 주의해서 볼 필요가 있다. 따라서 비율을 볼 때는 언제나 분모가 무엇인지 눈여겨봐야 한다.
이와 관련한 최근 사례 하나를 소개한다. 코로나19 백신은 부작용과 관련해 최근 우리 사회에서 첨예한 논쟁의 대상이었다. 전문가들의 합의된 견해로는 백신이 감염을 완전히 막아주지는 못하더라도 위중증, 사망 등으로 진행될 가능성을 현저히 낮추어 준다고 한다. 그런데 일각에서는 여전히 백신 부작용을 강조하며 접종을 거부하고 있다. 이와 관련해 모 국회의원 측에서는 일관되게 반백신 기조를 유지하며 관련 주장을 이어나가고 있다. 이들은 코로나 백신 접종 후 사망자는 1,230명으로 독감 백신 접종 후 사망자 118명에 비해, 그리고 여타 백신 접종 후 사망 사례는 그보다 훨씬 적기 때문에 코로나 백신이 매우 위험하다고 주장한다.
이 주장을 여러 매체에서 보도했는데 이들 중 분모를 고려한 곳은 거의 없다. 우선 고려해야 할 것은 백신별 총 접종자 수다. 코로나19 백신은 전 국민적 관심을 끌며 접종자 수가 여타 백신에 비해 매우 많을 것으로 추정된다. 어림잡아 전 국민의 80%만 접종했다고 가정해도 5,000만 국민 중 4,000만 명이 접종한 셈이다. 실제 수치는 더 높을 가능성이 크다. 따라서 백신 반대론자가 말하는 1,230명이라는 숫자에는 사실 ‘4,000만 명 중’이라는 말이 생략된 것이다. 반면 118명이라는 숫자의 분모는 그보다는 작을 가능성이 높다. 따라서 이 둘을 분모 없이 비교하는 것은 어불성설이다. 더 큰 문제는 둘 사이에 인과성이 입증됐는가 하는 점이다. ‘접종 후 사망’은 시간적 인접 관계일 뿐 의학적 인과성이 아니다. 또한 백신 부작용에 대한 경각심이 국민들 사이에서 매우 높아져 있는 현실을 고려하면, ‘접종 후 사망’이 발생했을 때 실제 보고로 이어지는 비율은 여타 질병에 비해 코로나19 백신의 경우에 더 높았을 가능성이 크다. 따라서 분모뿐 아니라 분자도 직접 비교하기에는 의심스럽다.
이 외에도 미디어에서 분모에 대한 정확한 정의 없이 분자를 비교하는 사례는 흔히 찾아볼 수 있다. 그 뒤에 언제나 어떤 의도가 숨어 있다고 말하기는 힘들지만 수용자는 그에 상관없이 언제나 ‘분모’가 무엇인지 눈여겨볼 필요가 있다.
표본의 대표성을 생각하자
여론조사에서는 전수를 조사할 수 없다는 한계 때문에 언제나 표본을 활용한다. 이때 표본은 전체를 대표할 수 있게 설계해야 한다. 이 과정에 문제가 있는 표본은 ‘편향됐다(biased)’고 말한다. 이를테면 전 국민의 여론을 묻는 여론조사에서 특정 연령대, 이를테면 20대의 의견만 물었다면 이는 전 국민의 견해를 골고루 수집했다고 할 수 없다. 이런 여론조사는 신뢰할 수 없을 것이다. 따라서 표본 조사에서 표본이 전체를 잘 대표할 수 있는지 살펴보는 것은 매우 중요하고, 통계학자들이 ‘표본조사론’이라는 분야를 따로 만들어 연구하고 있을 만큼 중요한 주제라 할 수 있다.
표본이 대표성을 갖고 있는지 확인하는 것은 쉽지 않다. 그러나 전체 집단 구성원 모두에게 표본에 포함될 기회를 공평하게 제공해야 함은 여론조사의 기본 원리다. 그런데 여러 가지 현실적인 이유로 인해 표본이 태생적으로 편향되게 설계되는 경우가 간혹 있다. 조사 방식이 특히 그렇다. 이를테면 응답 방식이 유선전화인 경우, 저연령층에 비해 고연령층이 표본에 포함될 가능성이 더 높은데, 이는 표본을 편향되게 할 수 있다. 그 밖에도 전화면접이냐, ARS 방식이냐 등에 따라 조사 결과는 큰 차이를 보일 수 있다. 표본이 어떻게 구성될지에 조사 방식이 큰 영향을 끼치기 때문이다. 이를 보정하기 위해 관련 분야 학자들은 많은 노력을 기울이고 있다.
대표성에 관한 한 가지 흔한 오해로 ‘수천 개 정도의 작은 표본으로 전체를 예측할 수 없다’가 있다. 적절한 방식으로 추출됐다는 전제하에, 적은 표본으로도 놀라울 만큼 정확하게 전체를 예측할 수 있다. 이는 20세기 초, 대형 조사 기관에 비해 훨씬 적은 표본으로 훨씬 정확하게 선거를 예측한 갤럽의 사례에서 찾아볼 수 있다. 심지어 수백 정도의 표본만 있어도 이상적인 상황에서는 전체를 상당히 정확하게 예측할 수 있다. 반대로 편향된 표본은 아무리 크기가 커도 전체를 부정확하게 예측할 수 있다. 표본이 커질수록 그것이 가리키는 부정확한 현실에 점점 더 가까워지기 때문이다. 따라서 표본 크기 자체보다는 그것이 적절한 과정을 통해 대표성을 보장할 수 있도록 추출됐는지 살펴보는 것이 더 중요하다고 할 수 있다.
데이터 리터러시 향상을 위한 제언
지면 관계상 이 글에서는 몇 가지 주의 사항만 소개했지만, 사실 데이터 리터러시에 관해서는 앞으로 해야 할 일이 훨씬 많다. 데이터 리터러시는 특히 양적 자료라는 특성으로 인해 다른 종류의 미디어 리터러시에 비해 특수한 접근이 필요하다. 이를테면 기초 통계 교육, 인과 추론에 대한 이해 등이 필요하다. 이 글이 독자들에게 데이터 리터러시에 대한 관심을 불러일으키고 관련 실천을 촉구하는 계기가 되기를 바라며 글을 마친다.
본 원고는 한국언론진흥재단의 정부광고 수수료를 지원받아 작성되었습니다.
↓↓ 자세한 내용은 링크를 통해 확인해주세요. ↓↓