기존 ‘표본 조사’로 알 수 없는 밝힐 수 없는 의견·행동 파악
“통계학적 조사로 정확도 높여”정보통신기술(ICT)이 첨단화되고 소셜네트워크서비스(SNS)가 보편화되면서 빅데이터 분석은 여론조사의 핵심 요소로 떠올랐다. SNS가 여론을 주도하는 시대에 여론의 흐름을 정확히 파악하려면 네티즌들이 온라인에 어떤 글을 올렸는지, 무엇을 검색했는지, 누구와 연결돼 있는지를 조사해야 한다. 퓨리서치센터도 이런 추세에 대응하는 차원에서 빅데이터 분석을 전담하는 데이터랩(Data Labs) 팀을 운영하고 있다.
솔로몬 메싱 데이터랩 팀장은 “기존 여론조사 방법으로 포착할 수 없는 집단을 조사하기 위해, 사람들이 여론조사에서 밝히기를 꺼리거나 밝힐 수 없는 의견과 행동을 파악하기 위해 빅데이터를 활용하고 있다”고 소개했다.
데어터랩과 협업하는 저널리즘연구팀의 카테리나 마사 부팀장도 “젊은 세대는 전화 여론조사에 잘 응답하지 않기 때문에 이들의 의견을 여론조사 결과에 정확히 반영하려면 트위터 등 SNS에 게시된 모든 글을 분석해야 한다”며 빅데이터 분석의 필요성을 강조했다.
데이터랩은 지난해 2월 팀의 첫 번째 연구로 미국 하원의원이 타 정당의 주장에 반대하는 의사를 얼마나 많이 표명했는지 분석한 결과를 내놨다. 조사와 분석은 전체 하원의원 435명이 2015년 1월부터 2016년 4월까지 생산한 보도자료와 페이스북 게시물 20여만건 전수를 ‘딥러닝’ 방식으로 기계학습을 시켜 이뤄졌다. 연구원이 20여만건의 글 가운데 7000여건을 직접 분류한 뒤 이를 컴퓨터에 학습시키면 컴퓨터가 자동으로 글을 분류해 냈다. 메싱 팀장은 “의원들의 레토릭 분석을 하려고 모든 의원을 직접 만나 조사하는 건 현실적으로 어렵고, 조사한다 해도 그들이 타 정당에 대해 부정적인 레토릭을 얼마나 구사했는지를 계량화하는 것은 더욱 어렵기 때문에 빅데이터 분석을 시도한 것”이라고 설명했다.
빅데이터 분석은 표본 조사로만 이뤄지는 기존 여론조사 방법의 한계를 극복하기 충분하다는 평가를 받고 있다. 선거 여론조사는 지역별·연령별 무작위로 추출한 사람을 대상으로 자동응답시스템(ARS)이나 전화 면접 방식을 통해 이뤄졌다. 하지만 갈수록 전화 응답률이 낮아지고 응답의 진실성에 의문이 제기되면서 전화 여론조사에 대한 신뢰도가 예전같지 않다는 분석이 지배적이다. 퓨리서치센터의 조사에 따르면 미국의 전화 여론조사 응답률은 1997년 36%에서 지난해 9%로 급락한 것으로 나타났다.
이런 배경에서 미국의 통계학자들은 빅데이터에 주목하기 시작했다. 웨이 왕 컬럼비아대 통계학과 교수 등은 2014년 마이크로소프트 게임기 엑스박스(Xbox) 사용자가 게임기로 온라인에 접속하면 대통령 선거 참여 여부 질문에 답하게 하는 방식으로 진행한 여론조사 결과를 논문을 통해 발표했다. 여론조사에 엑스박스 사용자 3만여명이 참여했는데, 이는 기존 여론조사의 표본 수(미국 기준)보다 다섯 배 많은 수치다. 왕 교수는 이렇게 수집한 빅데이터를 ‘MrP’(다중 회귀분석과 사후 층화) 등 각종 통계학적 방법을 활용해 분석했다. 결과는 여론조사보다 더 정확했다.
메싱 팀장은 “온라인에서 추출한 표본은 무작위로 추출한 표본과 비교해 연령 등이 편향될 가능성이 있지만, 통계학적 방법을 활용해 편향성을 제거하면 정확도를 높일 수 있을 뿐만 아니라 기존 여론조사보다 응답자에 대한 각종 정보를 더 많이 얻을 수 있어 다양한 분석이 가능하다”고 강조했다.
워싱턴 특별기획팀 kisukpark@seoul.co.kr
2018-01-15 6면
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지