이용자 행동 예측과 A/B 테스트

빅데이터와 사회, 4강2

강정수 · 901일전

연애 가능성을 예측하는 페이스북

페이스북 개인 계정의 '정보'란에 학력, 거주지, 가족 및 결혼/연애 상태 등을 자유의지에 따라 입력할 수 있다. 연애에는 '솔로', '연애 중', '약혼', '기혼', '자유로운 연애 중', '복잡한 연애', '별거' 등 자신의 상태를 표시할 수 있다. 페이스북 데이터 과학팀(Facebook Data Science)은 2014년 2월 발렌타이 데이를 맞아 페이스북 이용자의 연애상태와 페이스북 포스트 사이의 상관관계를 분석한 연구결과를 공개했다.

image 연애관계를 공식 선언하기 이전 파트너 사이에 공유하는 포스트의 양이 증가한다. 연애관계를 공개하기 12일 전부터 공유 포스트의 수는 급감한다.

46만 쌍의 1,800만 포스트에 대한 분석을 통해 페이스북은 다음과 같은 함의를 끌어냈다.

두 명의 특정 이용자 사이에서 공유 포스트 수가 약 80일이 넘게 꾸준하게 증가하다가 갑자기 그 수가 줄어들 경우, '정보'에 '연애 중'이라고 표시하지 않아도 두 이용자 사이에서 연애가 진행될 가능성은 매우 높다. 연애관련 광고를 두 명의 이용자 뉴스피드에 노출할 경우, 그 광고의 클릭율(CTR)이 높을 수 있다. 

이러한 이용자 패턴분석을 통해 페이스북의 예측 능력이 지속적으로 증가한다면, 페이스북은 이용자 사이의 연애관계가 성립할 가능성을 그들이 인지하지 못하더라도 미리 예측할 수 있다.

위의 연구에 대한 댓글에서 한 페이스북 이용자는 익명화된 연구 데이터를 공개할 수 있는지 물었고, 페이스북 데이터 과학팀은 '내부용'임을 밝히며 공개할 수 없음을 밝히고 있다. 페이스북 이용자 데이타는 기업 페이스북 소유임을 솔직하게 밝히고 있는 대목이다. 이용자 데이터는 페이스북의 수익모델, 다시말해 광고수익의 기초이다.

image 페이스북 이용자 데이터는 페이스북이 소유한다

페이스북만이 아니다. 구글, 네이버, 다음, 인터넷 게임 등 '무료' 인터넷 서비스의 대다수는 이용자 데이터에 기초한 수익모델을 가지고 있다. 이용자는 인터넷 서비스를 무료로 이용하는 댓가로 자신의 데이터를 제공한다. 이메일, 댓글 등을 기계적으로 분석(=알고리즘 분석)하고 이에 맞는 광고상품 등을 개발 및 제공하는 일은 인터넷 서비스 기업에게 핵심 수익사업이다.

이용자 데이터 분석의 목표는, 구글 검색서비스 최고 책임자인 아밋 싱할(Amit Singhal)아래 표현 속에 잘 담겨있다.

나는 검색서비스가 나를 가장 잘 아는 전문가가 되길 원한다. 당신이 던질 다음 질문이 무엇인지 물어보지 않고 검색 결과를 알려줄 수 있는 수준의 검색서비스가 필요하다. I want my search engine to be the expert who knows me the best. It needs to know you so well that sometimes you don't need to ask it the next question. 

싱할은 예측 검색서비스의 중요성을 이야기하고 있다. 이용자의 검색 역사에 대한 데이터가 풍부할 수록 이른바 예측 검색서비스의 품질은 좋아진다. 검색서비스의 품질은 검색서비스 시장 및 검색광고 시장을 장악할 수 있는 힘의 원천이다.

이메일, 검색서비스, SNS, 모바일 메시징 등 무료 인터넷 서비스만이 이용자 데이터에 기초한 수익모델을 가지고 있는 것은 아니다. 안드로이드 기반 스마트폰, 스마트TV, 테블릿, 전자책 리더 등도 이용자 데이터를 수집하는 효과적인 도구다.

이용자 데이터가 수익으로 직접 연결되지 않지만 기술개발 등 기업 경쟁력에 기여하는 방법은 다양하다.

이용자 데이터가 수익모델

인터넷 서비스 회원가입절차에 적지 않은 경우 캡차(Captcha)기술이 이용된다. 사람은 구별할 수 있지만 컴퓨터는 구별하기 힘들게 의도적으로 비틀거나 덧칠한 글자나 그림을 주고 그 글자 또는 그림에 쓰여 있는 내용을 물어보는 방법이 사용된다. 사람이 아닌 컴퓨가 자동으로 회원가입하는 일을 막기 위한 기술이다. 이 캡차기술이 적용된 회원가입절차에서 이용자는 결과적으로 컴퓨터의 교육자 역할을 담당한다. 많은 이용자가 비틀린 글자를 정확하게 이해하면 이해할 수록 컴퓨터는 실제 도로표지판 등을 판독할 능력을 가지게 된다. 캡차기술이 진화할 수록 인터넷 지도 서비스의 거리뷰(street view) 기술은 함께 발전한다. 캡차기술이 진화할 수록 구글의 스스로 주행하는 자동차의 사물인식 능력은 함께 발전한다. 현대자동차가 스스로 주행하는 자동차 개발을 위해 캡차기술을 구매하고 매년 업데이트 비용을 지불해야 한다면, 구글은 다양한 '무료' 인터넷 서비스를 통해 자동주행 자동차의 기술을 빠른 속도로 발전시킬 수 있다.

image smwm이라는 단어를 비틀어 놓아 컴퓨터가 인식하기 어렵게 해 놓았다

예측은 데이터 마이닝의 최종 목표

이용자를 더욱 잘 이해하기 위해, 이용자에게 보다 최적화된 서비스를 제공하기 위해 이용자 데이터가 필요하다. 뿐만 아니라 이용자를 알고 이해하는 능력은 인터넷 서비스 기업의 핵심 경쟁력이다.

데이터 분석(=마이닝)의 1차 목표가 이용자가 누구인지 아는 것이라면 2차 목표 또는 최종 목표는 이용자의 마음을 읽어 이용자의 다음 행위를 예측하는데 있다. 

이용자의 행위를 예측할 수 있을 때 또는 이용자 행동을 예측하는 기술의 정확성이 높을 때 기업의 수익성은 함께 증가한다. 때문에 막대한 기술투자가 현재 이용자 행위 예측기술 영역에서 진행되고 있다.

이용자 행동 예측기술, A/B 테스트

이용자 행동 예측기술의 대표적이고 기초적인 방법이 A/B 테스트다. 버즈피드(Buzzfeed)와 업월디(Upworthy)의 성공비결, 그리고 최근 뉴욕타임즈가 가장 큰 기술투자를 하는 영역이 바로 A/B 테스트다.

  • A라는 뉴스/드라마/상품을 소비한 사람이 B라는 뉴스/드라마/상품을 소비할 가능성은 어떤 조건에서 어느 수준일까?
  • 저녁 9시에 특정 이미지에 '좋아요'를 표시한 사람과 유사한 취향을 가진 다른 이용자가 다음 날 오전 9시에 동일한 이미지에 '좋아요'를 표시할 가능성은 어떻게될까? 다시말해 특정 이미지에 대해 시간대별 선호도 차이는 존재할까?
  • 연애관계에 빠지기 직전에 놓인 이용자 두 명이 있다. 이들에게 여행상품 광고가 효과적일까, 고급 레스토랑 광고가 효과적일까?
  • 날씨뉴스를 페이스북에 발행할 때 '좋아요'가 가장 많은 시간대는 하루 중 언제일까? 이른 아침? 점심 식사 이후? 퇴근 시간?
  • '파격 타임한정세일, 토요일까지!'와 '파격 타임한정세일, 마감 임박!'이라는 서로 다른 제목의 이메일을 발송했을 때 이용자는 어떻게 반응할까? 제목과 달리 이메일 내용은 동일한다.
  • 배너광고 클릭율을 낮지만, 동일 광고대상을 A형태로 표현한 배너광고와 B형태로 표현한 배너광고에 대한 이용자의 반응율 차이는? 혹시 남녀에 따른 차이는 존재할까? 연령대에 따른 차이는?

통계학에서는 이러한 질문에 답을 찾는 분야를 다변량 통계(Multivariate statistics)라 부른다. 인간의 미래 행동을 예측하기 위한 목적의 A/B 테스트를 본격적으로 도입한 곳은 구글이며, 페이스북이 뒷늦게 그 대열에 합류했다. 두 경우 모두 '광고 클릭율 또는 효율성(CTR)' 측정이 목적이다.

image A/B 테스트, 강정수 그림

이용자 행동 예측기술의 한계

(빅)데이터 분석에 기초한 이용자 행동 예측기술이 가지는 위험성은 명쾌하다. 다양한 인터넷 서비스 및 디바이스를 제공하고 있는 구글, 페이스북, 아마존 등 소수 기업에 이용자 데이터가 집중되고 있고, 이에 기초한 자본 집중, 기술 집중, 지식 집중 등이 진행되고 있다. 데이터 독점이 가지는 사회 문제점에 대해서는 5강에서 보다 자세히 다루고자 한다. 여기서는 예측기술의 학술적 한계에 대한 설명을 시도한다.

image 데이터 집중과 GAFA(구글, 애플, 페이스북, 아마존)

이용자가 A라는 물품을 구매할 것을 예측하여 상품배송을 미리 시작하고-아마존의 미국 특허 US 8615473 B2-, 미국 유권자의 기부금 가능 규모를 예측하고-2012년 오바마 대통령 선거운동-, 뉴욕거주 20대 초반 여성이 선호하는 뉴스 제목을 알고 있는-버즈피드-, 범죄 가능성을 알고리즘으로 예측하여 예방하는-미국, 영국, 네덜란드, 독일에서 이용하는 Predictive Policying 기술- 등 예측 기술은 이미 현실에 화려하게 적용되고 있다.


미국 L.A. 범죄지도 중 일부, LATimes 제공

그렇다고 (빅)데이터 기반 이용자 행동 예측이 오류에서 자유로운 것은 아니다. 빅데이터라고 해서 전수조사는 아니다. 데이터의 양이 증가해도 데이터는 전체의 일부일 수 밖에 없다. 때문에 데이터 샘플은 무작위성(random) 또는 대표성(representative)은 데이터의 양과 무관하게 중요하다. 또한 데이터 해석의 오류는 변함없이 존재한다.

마이크로소프트 리서치(Microsoft Research) 연구원 케이트 크로퍼드(Kate Crawford)는 "빅데이터는 색맹도 아니고 성 차별에서 자유롭지 않다. Big Data is neither color blind nor gender blind."고 주장한다. 그는 빅데이터의 객관성에 대한 잘못된 믿음을 비판하고 있다.

image 크로퍼드, "빅데이터 객관성은 신화에 불과하다"

첫 번째 이용자 행동 예측의 오류 원인은 데이터 선별에 있다. 크로퍼드에 따르면, 트위터를 활용하여 자연재해를 예측하는데 다양한 시도들이 있었다. 재해 예상지역의 규모와 피해규모를 빠르게 예측할 수 있다면 구호 및 지원체계를 효과적으로 운영할 수 있다. 2012년 허리케인 샌디가 미국 동부, 특히 뉴욕을 강타했을 때 트위터 예측 시스템이 이용되었다. 연구결과에 따르면, 피해는 맨해튼보다 뉴욕시의 다른 지역이 컸음에도 불구하고 맨해튼 지역에서 관련 트윗이 대량으로 생산되었다. 트윗 사용자의 분포가 맨해튼을 중심으로 분포하였기 때문이다. 또한 정전이 발생하고, 인터넷이 두절되고, 자신의 집에 큰 피해가 발생할 때 누가 트위터를 이용하고 싶었을까라는 질문도 진지하게 던져야 한다.

트위터를 시민 전체가 사용하지 않는다는 점, 트위터 이용자의 경제적 상황 및 생활 여건의 차이 등을 고려한다면 트위터 분석은 샘플의 무작위성에서 심각한 오류를 가지고 있다. 그러나 적지 않은 경우 절대적으로 많은 트윗의 규모에 놀라 샘플의 문제점을 지적하는 경우는 매우 적다. 빅데이터는 샘플 무작위성 오류로부터 자유롭지 않으며, 이 점을 인식하지 못할 경우 일반화 오류에 빠질 수 있다.

두 번째 오류 원인은 침묵의 나선(Spiral of silence)이다. 침묵의 나선은, 하나의 특정한 의견이 다수의 사람들에게 인정되고 있다면 반대되는 의견을 가지고 있는 소수의 사람들은 침묵하려 하는 경향이 존재하는 현상을 말한다. 또한 침묵하는 사람들이 증가할 수록, 다른 사람들도 침묵할 가능성은 함께 증가한다. 침묵이 침묵을 부른다. 2014년 8월에 공개된 키스 햄프턴(Keith Hampton) 등이 참여한 연구결과에 따르면, 소셜 미디어에서 침묵이 나선 이론을 입증하는 다양한 사례가 존재한다.

다시말해 특정 사안과 관련하여 공개된 트위터 트윗과 페이스북 포스트가 실제 여론을 반영한다고 주장할 수 없다. 트위터 또는 페이스북을 이용하다보면 만족 의견보다 비판 의견을 쉽게 만나는 경우가 종종 있는 것도 이 때문이다.

예측 기술의 진화는 이러한 오류 가능성을 예측(!)하고 극복하는 과정과 함께한다.