데이터를 알아야 AI가 제대로 보인다

2025. 6. 4. 10:00웹진<미디어리터러시>

글. 김익현 (지디넷코리아 미디어연구소장)

AI는 인간이 공급한 무수한 데이터로

학습하고 훈련되는 존재다.

AI에게 주어지는 데이터가

많으면 많을수록 AI의 능력은

놀랍도록 성장할 것이다.

앞으로 다가올 사회에서는

AI를 잘 활용하는 능력이

무엇보다 중요하며,

이를 위해

AI의 자양분이 되는 데이터를

먼저 이해하고 활용할 수 있는

‘데이터 과학시민’이 되어야 한다.

델(Dell)의 고객 데이터 혁신

최고책임자인 빌 슈마르조는

최근 저서 《인공지능 데이터 리터러시,

데이터 과학 속으로》를 통해서

AI 활용을 위해 전제되는

디지털 리터러시 요소를

일상적 사례 중심으로 설명한다.

본고에서 소개하는 저서를 통해

그가 주장하는 ‘데이터 과학시민’이 되는

방법에 한 발 더 다가가 보자.

데이터 과학시민으로
가는 길을 알려줘:
데이터 리터러시 프레임워크

인공지능(AI) 바람이 갈수록 거세게 불고 있다. 챗GPT 같은 생성형 AI는 인간 고유의 영역이라고 생각했던 많은 분야에서 인간보다 훨씬 뛰어난 능력을 발휘한다. 순수 창작 영역인 소설이나 전문성이 요구되는 변호사 시험 같은 분야에서도 이미 인간 수준을 넘어섰다. 그러다보니 전문 직종 상당수를 AI가 대체할 것이라는 암울한 전망까지 나오고 있다. 전지전능한 AI가 인류를 위협하는 무시무시한 상상을 하는 사람들도 있다.

하지만 AI는 모든 분야에서 전능한 것은 아니다. 인간은 간단하게 해내는 작업에서 오히려 AI가 더 큰 허점을 보이는 경우도 적지 않다. 선악 개념이나 독자적인 판단 능력도 없다. 가치중립적인 존재에 가깝다. AI는 인간이 정의한 대로 학습하고 훈련하는 존재이기 때문이다. 사용하기에 따라서 인간을 위협할 수도, 정보를 기반으로 현명한 결정을 내리도록 도와주는 소중한 동반자가 될 수도 있다. 그렇기 때문에 AI를 제대로 이해하기 위해선 학습의 기반이 되는 데이터를 제대로 이해해야 한다.

《인공지능 데이터 리터러시, 데이터 과학 속으로》 표지 빌 슈마르조 지음, 김익현 옮김

 

《인공지능 데이터 리터러시, 데이터 과학 속으로》(빌 슈마르조 지음, 김익현 번역)는 이런 문제의식에서 출발한다. 복잡한 기술보다는 데이터와 데이터 활용능력을 중심으로 최근의 AI 혁명을 분석하고 있다. 저자는 10개 장으로 구성된 이 책의 첫 장에서 ‘왜 AI와 데이터 리터러시인가?’란 도발적인 질문을 던진다. 이 질문에 대한 저자의 대답은 명확하다. “AI로 좋은 결과를 얻으려면 AI와 데이터 리터러시의 기본을 익히는 것부터 시작해야 한다.”(15쪽) 이 책을 아우르는 ‘데이터 리터러시’는 수많은 AI 관련 책 중에서 이 책이 도드라져 보이게 만드는 키워드이다.

저자는 한 발 더 나가 모든 사람들이 데이터 과학시민이 되어야 한다고 주장한다. 데이터 과학시민이란 데이터 리터러시를 바탕으로 ‘정보에 근거한 의사결정’을 할 수 있는 사람이다. 저자는 독자들을 데이터 과학시민으로 안내하기 위해 ‘AI와 데이터 리터러시 프레임워크’를 제시하고 있다. ‘AI와 데이터 리터러시 프레임워크’는 데이터와 개인정보 보호 인식, AI와 분석기법, 정보에 기반한 의사결정, 예측과 통계, 가치공학 역량 등으로 구성돼 있다. 그리고 이 모든 것의 중심에 윤리를 배치했다. “AI 모델이 책임 있고 윤리적인 선택을 해서 바람직한 결과를 만들어낼 수 있도록 인도하기 위해선 무엇보다 윤리를 체계화”(176쪽)해야 한다는 것이 저자의 일관된 문제의식이다.

데이터 리터러시 프레임워크 (출처: 《인공지능 데이터 리터러시, 데이터 과학 속으로》)

 

 

저자 슈마르조는 델(Dell)의 고객 데이터 혁신 최고책임자로 재직하고 있다. 풍부한 현장 경험이 강점인 저자는 AI와 데이터 리터러시에 대한 복잡한 이론이나 기술 소개 보다는 현장에 직접 적용할 수 있는 실제적인 지식들에 좀 더 무게를 두고 있다. 이를 위해 책 서두에 ‘AI와 데이터 리터러시 프레임워크’를 제시한 뒤 끝부분에서 다시 점검해 볼 수 있도록 했다.

프레임워크의 출발점 역할을 하는 것이 2장에 배치돼 있는 ‘데이터와 개인정보 보호 인식’이다. 여기서 저자는 데이터에 대한 기본 개념과 수집 방법 등에 대해 꼼꼼하게 설명해준다. 데이터는 AI 시대에만 중요한 역할을 한 것은 아니다. 인류 역사가 시작된 이래 데이터는 우리 일상생활에서 중요한 부분을 차지했다. 눈앞에 보이는 저 약초는 먹을 수 있는 것이라든가, 저 쪽 풀밭에 있는 덩치 큰 짐승(곰)은 위험하다는 등의 정보는 인류의 생존 여부를 가를 수 있는 중요한 데이터였다.

그런데 저자는 왜 새삼스럽게 데이터가 중요하다고 외치는 걸까? AI의 기반이 되는 빅데이터의 등장으로 데이터 분석의 품질 자체가 달라졌기 때문이다. 빅데이터는 단순히 규모가 큰 데이터가 아니다. ‘데이터 세분화’가 가능해진 것이 빅데이터의 진짜 강점이다. 이로 인해 세분화된 개인의 성향이나 행동 양식까지 분석할 수 있게 됐다. 덕분에 평균적인 결과만 얻을 수 있었던 데이터 분석이 개인별 맞춤형 분석으로 한 단계 발전할 수 있게 됐다. 빅데이터 혁명이 AI 기술 발전의 밑바탕이 된 것은 이런 장점 덕분이다.

세분화된 데이터 분석이 가능해짐에 따라 AI 시대엔 데이터 보호가 더 중요해졌다. 유럽연합(EU)의 일반개인정보보호법(GDPR)을 비롯해 전 세계 각국이 데이터 보호에 힘을 쏟고 있는 것은 이런 사정과 관련이 있다. 저자는 빅데이터 시대가 되면 데이터 보호가 왜 더 중요해지는지에 대한 설명과 함께 각국의 데이터 보호법 제정 움직임도 자세하게 소개하고 있다.

AI시대 데이터 분석과
의사결정의 핵심: 예측과 통계

구슬이 서 말이라도 꿰어야 보배다. 이 속담은 데이터라고 예외가 될 수는 없다. 아무리 많은 데이터가 있어도 제대로 분석하지 않으면 쓸모가 없다. ‘3장 분석 리터러시’에서는 데이터 분석의 기본 방법론인 데이터 과학에 대해 설명한다. 저자는 데이터 분석을 할 때는 비판적 사고를 기반으로 한 디자인 사고로 무장해야 한다고 강조한다. 또 지속적으로 학습하는 조직 문화를 조성하기 위해선 보고, 예측부터 처방과 자율분석까지 포괄하는 분석 성숙도 지수에 대해서도 숙달하고 있어야 한다고 강조한다.

그렇다면 AI를 도입하는 궁극적인 목표는 무엇일까? 어떤 개인이나 조직이 정보를 토대로 합리적이면서도 유용한 결정을 내리는 데 도움을 받기 위해서다. 제5장 ‘정보를 토대로 의사 결정하기’에선 그 부분을 집중적으로 다루고 있다. 그렇다고 해서 복잡한 AI 기술을 중심으로 설명하는 것이 아니다. 그보다는 보편적인 의사결정 방식과 그 과정에서 빠지기 쉬운 함정에 대해 차근차근 설명해준다. 특히 과잉 자신감 편향부터 ‘평균 기반 결정’에 이르는 인간의 8가지 의사 결정 함정은 AI와 데이터 리터러시가 아니더라도 꼭 한번쯤 읽어볼만한 내용이다.

이런 의사결정 함정을 피하기 위해선 어떻게 해야 할까? 저자는 ‘비판적 사고’가 중요하다고 강조한다. 비판적 사고란 실행 가능하고 정당한 판단을 내리기 위해 쟁점이나 주제를 합리적이고 객관적으로 분석, 탐구, 평가하는 것을 의미한다. 실행 파일로 제시한 ‘첫 번째 답을 믿지 말라’ ‘정보원을 고려하라’ ‘듣고 싶은 답변만 찾지 말라’ 같은 항목들은 데이터 리터러시가 아니더라도 깊이 고려할 만한 내용들이다.

AI와 데이터 리터러시 프레임워크에서 중요한 역할을 하는 것 중 하나는 ‘예측과 통계’이다. 조직의 방대한 데이터 더미에서 찾아낸 유형, 추세, 관계를 이용해 어떤 일이 일어날지 예측해서 좀 더 정확한 의사 결정을 할 수 있도록 해주기 때문이다. 이 때 중요한 것이 ‘긍정 오류’와 ‘부정 오류’를 가려내는 작업이다. 긍정 오류란 특정 조건이 실제로 존재하지 않는데도 존재한다고 판단하는 것을 의미한다. 반면 부정 오류는 실제로 존재하는 특성을 존재하지 않는다고 판단할 때 발생한다. 어떤 기업이 AI 모델로 구직자를 채용하는 데, 능력 미달 지원자를 훌륭한 인재로 판단해 채용하는 것이 ‘긍정 오류’에 해당한다. 반면 뛰어난 인재를 성공하지 못할 것이라 판단해 채용하지 않는 경우엔 ‘부정 오류’를 범하게 된다. 두 가지 오류 모두 AI 모델을 사용하는 기업에게는 적지 않은 피해를 안겨주게 된다.

따라서 AI 모델에서는 ‘혼동행렬’을 이용해 이런 오류를 줄이는 작업을 한다. 혼동행렬은 모델이 정확하게 예측한 것과 잘못 예측한 숫자를 토대로 정밀도, 재현율, 정확도 등을 계산하게 된다. 이런 작업을 통해 확증편향을 줄이고 효과적인 의사 결정을 할 수 있도록 한다.

그 동안 나왔던 많은 책들은 ‘기술 혁명’이란 관점에서 AI를 바라봤다. 하지만 이 책은 AI의 근간이 되는 데이터를 일상생활과 연결해서 접근하고 있다. AI가 연구실이나 기술 전문가들의 전유물이 아니라, 우리 일상의 한 부분이란 점을 잘 보여주고 있다는 점도 이 책의 매력 포인트이다. 이와 더불어 윤리나 조직 내부 문화 같은 요소들까지 아우르고 있는 점 역시 AI를 좀 더 현실적으로 이해하려는 독자들에겐 큰 도움이 된다.

AI시대의 조직문화와
윤리 바로잡기: 가치공학 역량

AI 기술과 서비스가 제대로 자리를 잡기 위해선 무엇보다 잘 활용할 수 있어야 한다. AI 개발과 활용에 최적화된 조직 문화도 필요하다. 편견에 사로잡혀 있거나, 기존 관행에 절대적인 권위를 인정할 경우엔 새로운 기술이 자리를 잡기 힘들기 때문이다. 특히 어떤 조직이 AI를 성공적으로 활용하기 위해선 의미 있고 관련 있으며, 윤리적인 결과물을 식별, 검증, 가치 평가하고 우선순위를 정하는 작업을 해낼 수 있는 인재가 많이 필요하다.

그런 관점에서 저자가 이 책의 근간인 ‘데이터 리터러시 프레임워크’의 마지막 단계로 가치공학 역량과 권한부여 문화 같은 조직 문화에 초점을 맞추는 것은 의미가 적지 않은 것 같다. 가치공학 역량이란 조직이 데이터와 선진 분석 기법을 활용해 가치를 창출하는 방법을 이해하는 것을 의미한다. 이 부분에서 슈마르조는 ‘나노경제학’이란 개념을 제시한다. 저자 자신이 직접 고안한 용어인 ‘나노경제학’은 AI를 활용해 조직의 고객 참여 및 운영 관리 데이터에 묻혀 있는 개별 인간과 기기의 예측된 행동 및 성향을 찾아내는 경제학 이론이다. 나노경제학 개념을 활용하면 평균을 토대로 의사 결정하던 방식에서 개별 객체들의 행동이나 성과 성향을 예측해 정교한 의사 결정을 하는 쪽으로 발전할 수 있게 된다.

가치공학 역량으로 무장한 조직은 가치가 무엇인지 잘 알아야 하며, 그런 가치를 창출하는 방법을 정의하고 효과를 측정할 수 있어야 한다. 그 바탕 위에 이용 사례별 실행계획에 따라 조직을 조정한다. 그런 다음 가치 창출 이용 사례를 확장하기 위해 유연한 조직 구조를 갖출 수 있어야 한다.

AI 시대엔 이런 여러 가지 항목 못지않게 조직 문화와 윤리도 굉장히 중요한 역할을 한다. 특히 저자는 윤리를 ‘AI와 데이터 리터러시 프레임워크’의 중심에 배치할 정도로 소중한 덕목으로 강조하고 있다. 언뜻 보기엔 경제와 윤리는 서로 상반된 존재인 것처럼 생각된다. 윤리를 지나치게 강조하다보면, 경제적인 발전에 제동이 걸릴 수도 있기 때문이다. 하지만 저자는 AI 발전과 윤리는 결코 반대쪽을 바라보는 존재가 아니라고 강조한다. 특히 AI가 걷잡을 수 없이 빠른 속도로 발전하고 있는 점을 감안하면 윤리적 기준을 잘 접목하는 것은 굉장히 중요하다. 이 문제에 대해 저자는 이렇게 설명하고 있다.

“AI가 전례 없는 규모로 학습하고 적응하는 놀라운 능력을 갖고 있다는 점을 감안하면, AI 모델을 설계, 개발, 배포할 때는 필수적으로 윤리적 기준을 정확하게 정의하고 개발하며, 실행해야 한다. 이를 잘못 적용하게 되면 끔찍한 결과를 초래할 수 있다.” (175쪽)

저자는 챗GPT 같은 AI 모델들은 이용자들의 질문에 대해 사람처럼 답변해주기 때문에 제어되지 않는 생성형 AI 챗봇 능력이 초래할 충격이 훨씬 더 긴박하다고 강조한다. 그렇기 때문에 “지금 바로 행동해야 한다”고 촉구한다.

AI와 더불어 살아가기,
데이터 리터러시 역량을 기르자

《인공지능 데이터 리터러시, 데이터 과학 속으로》는 이처럼 데이터란 프리즘을 통해 AI 혁명의 현재와 미래를 세밀하게 분석하는 책이다. 저자는 데이터가 우리와는 거리가 먼 복잡한 존재가 아니라 일상생활에 밀접한 영향을 미치는 존재라는 사실을 실제 사례를 통해 꼼꼼하게 보여주고 있다. 그렇기 때문에 AI와 ‘더불어’ 살아가기 위해서는 데이터 과학시민이 되어야 한다는 저자의 주장이 더 그럴 듯하게 다가온다. 특히 이 책은 복잡한 기술적인 설명을 최소화하는 대신 일상생활에서 흔히 접하는 여러 사례를 중심으로 AI 시대에는 왜 데이터 과학시민이 되어야 하는지 설득력 있게 보여주고 있다.

이 책에는 AI 활용을 위한 여섯 가지 리터러시 요소가 담겨 있다. 정보보호나 AI 분석 같은 일반적인 요소 뿐 아니라 가치공학 역량 같은 조직 경쟁력 요소까지 담고 있어 리터러시에 대한 이해의 폭을 좀 더 넓히는 데 큰 도움이 된다. 경쟁력 있는 데이터 과학시민이 되기 위해선 기술이나 데이터에 대한 지식 못지않게 비판적으로 사고하는 능력과 권한을 부여해주는 수평적인 조직 문화가 필수적으로 요구되기 때문이다.

저자는 AI와 데이터 리터러시에 대한 긴 여정을 마무리하면서 “생성형 AI 지원 제품은 열심히 일하긴 하지만 결점이 많은 보조 연구원으로 취급하라”(236쪽)고 충고한다. 그래야만 무서운 속도로 발전하는 생성형 AI 시대의 진정한 주권자가 될 수 있기 때문이다. 저자가 AI에 대해 설명하면서 인간의 의사결정 함정을 중요하게 다루고, 또 윤리와 권한 부여 문화 같은 요소들에 많은 비중을 할애한 것도 이런 문제의식과 관련이 있다. 리터러시는 단순히 기술을 이해하는 수준을 넘어 주체적이고 능동적으로 활용할 수 있는 능력까지 포괄하기 때문이다. 그런 점에서 이 책은 책임 있는 AI 활용을 위한 안내자로서 부족함이 없어 보인다.