뷰페이지

빅데이터는 ‘호수’이자 ‘늪’… 무작정 수집보다 기업 전략이 먼저다

빅데이터는 ‘호수’이자 ‘늪’… 무작정 수집보다 기업 전략이 먼저다

입력 2019-06-27 17:38
업데이트 2019-06-28 01:54
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14

[2019 쟁점 분석] ⑪ 빅데이터 어떻게 활용할 것인가

2012년 빅데이터 바람에 이어 2016년 4차 산업혁명과 인공지능이라는 강풍이 한국에 몰아쳤다. 중앙정부와 지방자치단체는 ‘일단 많이 모아 놓으면 어디엔가 쓰이겠지’와 같은 막연한 기대 속에서 거액의 비용을 들여 공공빅데이터센터를 우후죽순처럼 구축한다. 시민에 개방한 공공데이터를 활용한 창업아이디어 경진대회를 열지만, 사업화하는 경우는 드물다. 기업은 ‘쓸만한 데이터가 없다’고 불평하면서 개인정보보호법의 규정을 완화해 달라거나 산업별 데이터를 거래할 플랫폼을 정부가 구축하라고 요구한다. 그래서 올해 초 과학기술정통부는 기관별 빅데이터 센터 100개소, 그리고 이와 연계된 빅데이터 플랫폼 10개소를 구축하고 있다. 세계적 추세에 뒤처지면 안 된다는 우려는 이해하지만, 일의 순서와 포커스가 잘못 설정됐다. 빅데이터 어떻게 활용해야 하나, 방향을 제시하고자 한다.
이미지 확대
4차 산업혁명에 대응하겠다며 정부와 지방자치단체, 공공기관 등에서 데이터를 모으고, 그 데이터를 활용할 방안들을 찾고 있다. 그러나 데이터를 쌓아놓는다고 빅데이터가 되는 것은 아니다. 무슨 문제를 어떻게 해결할 것인가에 대한 판단을 경영진에서 하지 못하고 데이터 리터러시가 부족하다면 쌓아놓은 데이터는 그저 ‘데이터의 늪’이 될 뿐이다. 지난 3일 서울 명동 은행회관에서 신용정보원이 빅데이터 인프라 오픈 행사를 하고 있다.  서울신문 DB
4차 산업혁명에 대응하겠다며 정부와 지방자치단체, 공공기관 등에서 데이터를 모으고, 그 데이터를 활용할 방안들을 찾고 있다. 그러나 데이터를 쌓아놓는다고 빅데이터가 되는 것은 아니다. 무슨 문제를 어떻게 해결할 것인가에 대한 판단을 경영진에서 하지 못하고 데이터 리터러시가 부족하다면 쌓아놓은 데이터는 그저 ‘데이터의 늪’이 될 뿐이다. 지난 3일 서울 명동 은행회관에서 신용정보원이 빅데이터 인프라 오픈 행사를 하고 있다.
서울신문 DB
첫째, 데이터나 테크놀로지보다 전략이 먼저다. 정부나 기업들은 실무 단위의 빅데이터 전담조직을 만들거나 외부의 전문업체를 불러다놓고 ‘우리에게는 이러저러한 데이터가 많이 있으니 이를 분석해서 의미있는 인사이트를 추출해달라’고 요구한다. 사실 데이터는 여러 작업들의 부산물로 ‘쓰레기’에 비유할 수 있다. 쓰레기를 많이 모아 놓았으니 이를 활용하라는 주문은 거꾸로 된 순서다. 먼저 어떤 재활용품을 만들지를 결정하고 그에 필요한 쓰레기를 분리수거해 별도로 관리해야 한다. 그러니 쓰레기들을 무조건 쌓아놓고 쓸모를 기대해선 안 된다. 쓰레기 데이터의 종합 하치장을 만드는 데 큰 돈이 들어가지만, 제대로 활용하지 못하면 낭비다. 그래서 데이터 소스(원천)가 모였다는 의미로 ‘데이터 레이크’(data lake; 데이터 호수)라고 멋지게 부르지만, ‘데이터 늪’이라고 비판받는 이유가 된다.

데이터 활용의 핵심은 명확한 기업 경쟁전략이 존재하는가 여부이다. 기업들은 전쟁터와 같은 시장에서 생사가 엇갈리는 경쟁을 한다. 데이터는 이러한 기업의 전략에 복무할 때 가치가 있고 그렇지 않으면 그저 쓰레기, 데이터 과학자라는 호사가의 장난감 찰흙놀이에 불과하다.

둘째, 문제해결 능력을 강조하지만, 문제정의(定義) 능력이 더 중요하다. 어떤 비즈니스 문제를 해결하려고 하는가를 알아야 한다. 근래 교육혁신과 관련해서 ‘문제풀이 능력’보다 ‘문제해결 능력’ 강조가 늘고 있다. 하지만 어떤 ‘문제’인지를 먼저 알아야 한다. 즉 ‘how-to-do’보다 ‘what-to-do’가 먼저다. 우리 교육에서 가장 취약한 부분이 바로 문제를 정의하는 능력을 높이는 교육이다. 문제정의가 왜 문제해결보다 중요한지는 아마존이 실험 개설한 슈퍼마켓인 ‘Amazon-Go’로 이해할 수 있다. 일반적인 소매유통점 ‘마트’에서는 고객들의 ‘기다리는 줄’을 문제로 정의하였기에 문제해결에는 POS스캐너, 소량 구매 전용 라인 등을 도입했다. 하지만 아마존은 ‘카운터에서 계산하기’를 문제라고 정의해서 카운터에서 계산할 필요가 없는 해결책을 모색했다. 그 결과 매장에 들어온 회원이 어떤 물건을 바구니에 담는지를 동영상으로 인식하고 물건을 가지고 매장 밖으로 나가면 회원이 사전에 등록한 신용카드에 그 가격만큼 결제를 청구한다.

셋째, 경영진의 데이터 리터러시(literacy)가 실무자의 빅데이터 분석능력보다 더 중요하다. 조직이 직면한 여러 과제 중에서 어떤 것은 머신러닝 기법으로 해결해야 하는지를 알아야 한다. 먼저 어느 과제를 해결할지 결정하고, 그에 필요한 데이터를 판단하고, 조직이 관련 데이터를 보유했는지 파악한 뒤 만약 가지고 있지 않다면 어떻게 모을 것인지를 고민하는 단계로 나아가게 된다.

현재 시중에 개설된 각종 빅데이터 및 머신러닝 관련 교육프로그램들은 문제의 정의보다는 R이나 Python 등 문제해결에 대한 실무지식 등이다. 취업희망자, 즉 예비 실무자 대상의 시장이 형성되어 있다. 이들은 교육으로 문제해결 역량은 지니지만, 정작 어떤 문제를 풀어야 할지를 모른다. 조직에서 해결해야 할 비즈니스 문제는 중간관리자, 본부장, 임원급 간부들이 잘 알고 있는데 이들은 빅데이터와 머신러닝에 대해서 거의 무지하다. 즉 도구에 대한 이해가 부족하다. 그렇다고 고위간부급 직원들이 직접 머신러닝 관련 코딩을 배울 필요는 없다. 하지만 주요한 알고리즘들이 어떤 문제를 해결하는데 사용되며 작동원리는 어떠한지, 결과값은 무엇을 의미하는지 정도만 알아도 세상을 보는 눈이 달라지게 된다.

넷째, 외부 데이터의 활용보다 내부 데이터의 발굴과 공유가 중요하다. 공공기관의 데이터 개방이나 민간기업 또는 산업 분야에서 생성된 데이터의 유통에 대한 관심이 높아지고 있다. 물론 시민과 기업이 공공기관에서 공개한 데이터를 활용하여 다양한 정보 및 서비스를 생성하고 공공기관의 투명성을 제고하는 매우 값진 일이다. 하지만 시민에게 개방되지 않은 데이터 중 더 가치있는 정보들이 많으리라는 것은 충분히 추론할 수 있다. 민간기업도 산업 현황 같은 거시적 데이터보다도 사업운영에서 얻어지는 구체 데이터가 훨씬 더 가치있다. 하지만 기업들은 가치있는 데이터는 영업비밀로 간주하므로 외부로 유통시키지 않는다. 게다가 사업운영은 기업마다 특수해 설사 다른 기업의 운영 데이터를 얻더라도 그다지 쓸모가 없다. 결국 자기 사업운영 과정에서 축적된 데이터가 가장 가치있다. 공공기관도 개방할 수 없는 데이터들이 많다는 점을 이해할 수 있다. 대신 공공기관은 그러한 비개방 데이터를 내부적으로 활용해 더 좋은 공공서비스를 제공해야 한다.

문제는 공공기관의 각 부서가 가진 데이터를 같은 기관의 다른 부서들에조차 개방하지 않는다는 점이다. 데이터는 자기 부서 서랍 속에서 보관될 때보다 다른 부서의 데이터와 합쳐질 때 더 큰 가치를 발휘한다. 사례가 있다. 뉴욕시청은 화재나 사고의 위험성이 높은 불법 개조 건축물을 단속(시청 건축과 관할 업무)하는데 어려움을 겪었다. 산하 부서 및 기관들이 가진 데이터를 통합하여 다양한 변수들을 조합 분석한 결과, 건축물 소유주의 재산세 체납 여부(시청 재무국)와 주택담보대출 상환금 연체 여부(지방법원 등기소)가 가장 중요한 지표로 나타났다.

이는 기업 내부에서도 마찬가지이다. 최근까지도 IT부서는 일종의 운영지원 부서였다. 사내 정보시스템의 총책임을 지는 CIO는 IT시스템이 장애 없이 부드럽게 운영되도록 하는 것을 가장 큰 미션으로 생각한다. 반면 각 부서가 움켜쥔 데이터를 다른 부서와 공유하는 것은 정보를 매개로 한 사내 권력을 포기하는 것이기에 반발을 불러올 수밖에 없다. 기업 내부의 데이터 거버넌스는 최고경영자의 강력한 의지가 실리지 않으면 매우 진행하기 어려운 과제이다. 지원부서의 성격이 강한 기존의 정보시스템 부서가 이러한 일을 맡으면 실패할 수밖에 없다. 최고경영자 직속의 데이터 기반 혁신조직을 신설하거나 최소한 기획조정실 내에 한 부서로 자리잡고 추진해야 그나마 성공 가능성이 생긴다.

결국 빅데이터를 잘 활용하려면 전략적 문제 설정, 데이터 리터러시, 데이터 거버넌스 등을 경영진 차원에서 수행해야만 성공을 거둘 수 있는 것이다.

추가하여 빅데이터는 현장에서 실무자의 의사결정에 도움을 주는 증강지능(Augmented Intelligence)의 역할을 해야 한다. 일선 실무자들은 하루에도 여러 번 작은 의사결정을 내려야 한다. 잘 분석된 빅데이터는 주관적이지 않으면서 과학적이고 효과적인 의사결정을 지원해야 한다.

가장 좋은 사례는 차량 내비게이션이다. 여러 갈래 길 중에서 가장 시간이 적게 걸릴 확률이 높은 경로를 추천해줌으로써 운전자의 의사결정을 도와준다. 마찬가지로 시설관리자들에게는 시설의 어떤 부분에서 문제가 발생할 확률이 다른 부분들보다 높아서 우선적으로 점검해야 하는지를 알려주거나, 영업사원에게 고객들의 성향을 예측하여 적절한 상품을 추천해주거나, 취업알선센터 실무자에게는 상담자가 어떤 일자리에 어울리는지를 자동으로 분석하여 추천 우선순위 일자리들을 알려주는 각각의 애플리케이션이 필요하다. 또 그 결과들은 시스템에 피드백되어 점점 더 정확한 예측을 할 수 있어야 한다. 현장에 답을 주어야 하며, 그 답은 현장으로부터 온다.
이미지 확대
고한석 서울디지털재단 이사장
고한석 서울디지털재단 이사장
한국 사회에서 부족한 것은 데이터가 아니고 실무역량도 아니다. 관리자 및 경영진의 데이터 리터러시라는 점을 거듭 강조한다. 또 시장이 형성되지 않아 스타트업들은 정부의 공공구매에 목을 매는 악순환이 발생한다. 정부는 초기 수요기업을 조건부로 지원함으로써 시장을 육성하여 기술기업들이 시장에서 수입을 올릴 수 있도록 유도해야 한다. 이를 위해서는 잠재적 수요층인 기업 및 조직의 의사결정자들에 대한 교육프로그램을 운영하고, 파일럿 프로젝트에 대한 기술 바우처를 지원해 경쟁력이 입증된 기술기업을 지원해야 한다. 빅데이터 및 인공지능을 통한 생산성 향상이라는 맛을 보아야만 신기술에 대한 유효수요가 창출되고 시장이 형성될 것이다.

■고한석 이사장은 서울대 중문학과를 졸업하고 하버드대학 케네디 행정대학원에서 IT정책으로 석사학위를 취득했다. SK 중국법인과 삼성네트웍스에서 일하였고 빅토리랩 대표와 민주연구원 상근부원장 등을 역임하면서 정치 및 공공영역에서 빅데이터를 활용하는 일에 주력하였다. 저서로는 ‘빅데이터, 승리의 과학’(2013)이 있다.
2019-06-28 28면

많이 본 뉴스

  • 4.10 총선
저출생 왜 점점 심해질까?
저출생 문제가 시간이 갈수록 심화하고 있습니다. ‘인구 소멸’이라는 우려까지 나옵니다. 저출생이 심화하는 이유가 무엇이라고 생각하시나요.
자녀 양육 경제적 부담과 지원 부족
취업·고용 불안정 등 소득 불안
집값 등 과도한 주거 비용
출산·육아 등 여성의 경력단절
기타
광고삭제
위로