유튜브(YouTube)와 알고리즘

빅데이터와 사회, 2강

강정수 · 901일전

1970년대 탁구는 미국과 중국의 끊어진 관계를 연결하는 역할을 담당했다. 이른바 핑퐁 외교다. 1980년 초반 미국의 케이블 방송사업자는, 지상파 대비 상대적으로 뛰어난 화질을 홍보했지만 시장 확장에 어려움을 겪고 있었다. 스포츠 전문 케이블 방송인 ESPN은 탁구 프로그램을 통해 시청자를 매료시키는 것은 화질이 아니라 프로그램임을 입증했다. 이후 ESPN은 전미대학경기협회(NCAA)로부터 미식축구 및 농구 중계권을 따내면서 빠르게 성장한다. 탁구는 미국사회의 꽉막힌 상황을 두 번 돌파하는 계기를 제공했다.


(이미지 출처)

유튜브와 ESPN

구글의 유튜브는 ESPN의 성장 역사로부터 교훈을 얻어냈다.

유튜브는 2005년 개인 이용자가 제작한 동영상을 인터넷에 공개하고, 공유하는 플랫폼으로 역사에 등장했다. 2006년 구글에 인수된 이후 유튜브는 가파른 성장세를 보이며 중국 등 일부 국가를 제외한 전 세계 인터넷 동영상 시장을 장악해 갔다. 유튜브의 성장에서 결정적 사건은 2011년 3월 7일 발표된 유튜브의 Next New Networks의 매입이다. Next New Networks는 2007년부터 코미디 프로그램 Barely Political과 자동차 뉴스 프로그램 Fast Lane Daily 등을 유튜브에 제공한 프로그램 제작자 연합이다. 뉴욕에서 시작한 스타트업 Next New Networks는 구글에 인수된 이후 유튜브의 '시청자 개발 그룹(Audience Development Group)'으로 진화한다. '시청자 개발 그룹'은 유튜브 네트워크 사업자(Youtube Network) 또는 유튜브 멀티채널 네트워크 사업자(Multi Channel Network, MCN) 탄생의 필요 조건을 만들어 낸다.


(이미지 출처)

유튜브 네트워크 사업자라함은, 두 개 이상의 유튜브 채널 운영자 및 생산자의 연합체로서 프로그램의 상업화를 책임지며 유튜브로부터 멀티채널 네트워크 사업자(MCN)로서 특별한 권리를 부여받은 사업자를 말한다. 이들 유튜브 네트워크 사업자는 (케이블) 방송사업자와 차별화된 프로그램으로 북미 및 유럽 이용자가 TV를 떠나 유튜브로 이동할 동기를 제공하는데 결정적 역할을 담당하고 있다. 1980년대 ESPN과 유사하게 프로그램 화질이 아닌 차별적이고 매력적인 프로그램이 시장을 형성하는 힘임을 유튜브 네트워크 사업자는 입증하고 있다.

image 유튜브 네트워크 사업자 월 순방문자 변화
(단위: 1000, 출처: comScore Insights)

복수 채널 사업자의 연합체 성격을 가지는 유튜브 네트워크 중 대표적인 사업자는 아래 표와 같다.

(아래 표는 모바일이 아닌 PC 최적화 상태)

이름 AwesomenessTV Fullscreen Maker Studios DiviMove Studio71 Machinima
지분 DreamWorks 100% Comcast Ventures 등 벤처 캐피털->AT&T Disney 100% Bertelsmann via FremantleMedia 26% ProSiebenSat.1 100% Google, Warner Bros. 등 벤처 캐피털
채널 수 약 85,000 약 33,000 약 5,000 약 1,400 약 130 약 12,000
인기 채털 AwesomenessTV, Austin Mahone, jennxpenn TheFineBros, ShaneDawsonTV, Galo Frito Michelle Phan, PewDiePie, Epic Rap Battles, Tobuscus Bosshaft TV, Docm77, 16BARS.TV Gronkh, SarazarLP, Kelly MissesVlog machinima; skydoesminecraft; VanossGaming
월 방문자 (백만) 약 450 약 3200 약 6,500 약 300 약 130 약 2,000
직원 수 약 30 약 400 약 450 약 50 약 35 약 500

(출처: comScore, SocialBlade)

유튜브 네트워크 사업자는 도달율 증대, 수익 사업, 영상 제작, 기타 지원 등 크게 네 가지 역할을 담당한다.

  • 도달율 증대: 복수의 채널 운영자의 Croospromtion, 채널 최적화, 채널 운영자 교육, 댓글 관리 등을 통해 개별 채널의 도달율 증대를 도모한다. 이른바 '시청자 개발(Audience Development)' 기능이다.
  • 수익 사업: 네트워크 사업자는 소속된 채널을 집단적으로 대표한다. 개별 채널에 맞는 광고 파트너를 찾아 계약을 성사시키는데 있어 효율적이다. 또한 유튜브에서 제공하는 베너 광고 이외에도 제품간접광고(PPL, Product Placement), 머천다이징(Merchandising) 등의 수익 사업을 담당한다.
  • 영상 제작: 채널 운영자의 유튜브 영상 제작을 위해 (배경) 음악, 효과 음향, 이미지, 그래픽 등의 제작 및 라이센스 계약을 네트워크 사업자가 담당한다. 영상 제작을 위한 스튜디오 및 시나리오 작가 제공은 기본이다.
  • 기타 지원: 운영자의 SNS 지원, 팬 미팅, 언론홍보 등을 네트워크 사업자는 지원한다. 필요에 따라서는 홈페이지 및 앱을 제작하고, 행사 지원 등 전통적인 메니지먼트 회사의 기능을 담당한다.

유튜브 네트워크 사업자 수익모델

image 유튜브 네트워크 사업자 수익모델

유튜브 채널 운영자 또는 유튜버(Youtuber)에게 수익흐름은 크게 네 가지다(자료출처).

  1. 광고주-유튜브-유튜버의 관계다. 중간 사업자인 유튜브 네트워크가 존재하지 않기 때문에 유튜브 채널의 전체 광고수입 중 작게는 45퍼센트에서 많게는 55퍼센트가 유튜버에게 돌아간다.
  2. 유튜브 네트워크 사업자가 유튜브의 사업 대행을 맞는 형식이다. 이 때 채널 광고수입 중 최대 39퍼센트가 유튜버에게 돌아간다.
  3. 유튜브는 일부 네트워크 사업자에게 광고서버(AdServer)를 직접 운영할 권한을 준다. 다시말해 네트워크 사업자는 직접 광고주 영업을 할 수 있다. 이 때 네트워크 사업자는 유튜브에게 최대 45퍼센트를 지불해야한다.
  4. 제품간접광고, 또는 채널 동영상을 다른 동영상 플랫폼 사업자에게 제공하는 경우다. 이 때 채널 운영자 또는 유튜버는 전체 수입 중 약 50퍼센트를 받는다. 제품간접광고(PPL) 수입에 구글/유튜브는 관여하지 않는다. 제품간접광고는 유튜브 네트워크 사업자에게 최근 급성장하고 있는 수입영역이다.

제품간접광고를 제외한다면 유튜브 채널에 게재되는 광고수입의 최대 16퍼센트가 유튜브 네트워크의 몫이다. 16퍼센트에 만족할 사업자는 많지 않다. 이러한 배경에서 최근 유튜브 네트워크 사업자는 파트너로서 유튜브 채널 운영자가 아닌 고용인으로 유튜브 채널 운영자를 선호한다. 다시말해 유튜브 채널 프로그램 생산에 직접 투자하고 있다. 다른 측면에서 볼 때 유튜브 네트워크 사업자에게는 두 가지 선택이 있다.

  • 채널 관리를 자동화하여 최소한의 인력 및 비용으로 다수의 채널을 관리하고 사업화한다. 비용절감을 통해 수익성을 높이는 방법이다.
  • 또는 이른바 유튜브 스타(YouTube Celebrities)를 직접 육성하여 유튜브의 경계를 넘어 다양하게 사업화한다.

대형 유튜브 네트워크 사업자들이 앞다투어 유튜브 스타 키우기에 뛰어든 것은 자연스러운 결과다.

image 뉴욕 지하철 광고에 등장에 유튜브 스타들

유튜브 경쟁자: 케이블 방송/위성 방송/IPTV 사업자

2013년 초반까지 유튜브의 임원으로 일했던 헌터 워크(Hunter Walk)2009년 아래와 같이 유튜브의 성격을 정의한다.

"유튜브는 미디어 콘텐츠 기업이 아니다. 유튜브는 미디어 콘텐츠를 확산시키는 기폭제 역할을 담당한다. 우리는 콘텐츠 제작자와 시청자를 연결할 뿐이다. We’re not a media company — we’re a media catalyst. ... What we really try to do is connect content creators with content viewers." 

유튜브가 유튜버 또는 유튜브 네트워크 사업자와 한편에 속한다는 이야기다. 웹 동영상 프로그램을 전 세계에 유통시키는 플랫폼으로서, 그리고 이를 경제적으로 가능케 하는 광고 플랫폼으로서 유튜브의 역할을 분명하게 표현하고 있다. 이 역할을 유지하고 강화하기 위해서는 유튜브에게는 새로운 영상 형식과 새로운 스타가 계속해서 필요하다. 영상 제작과 스타 발굴, 스타 육성을 담당하는 유튜브 네트워크 사업자는 유튜브에게 주요한 사업 파트너다. 그러나 케이블 방송 사업자, IPTV 사업자 등에게 유튜브는 경쟁 사업자일 수 밖에 없다. 또한 프로그램 제작을 주도하고 있는 전통 (방송) 영상 사업자에게 유튜브 네트워크는 경쟁 사업자일 수 밖에 없다.

한편 유튜버, 유튜브 네트워크 사업자, 유튜브 등 새로운 유튜브 생태계가 오래 지속될 수 있을지는 여전히 의문이다.

유튜버에게 유튜브 네트워크 사업자는 마냥 함께하고픈 동반자일 수 없다. 과거 맺은 계약 조건이 나쁠 수 있고, 유튜브 네트워크 사업자가 제공하는 지원은 스타 유튜버에게 집중하고 있기 때문이다. 유튜브 네트워크가 유튜버에게 게이트키퍼(gatekeeper)다. 메이커 스튜디오(Maker Studio)가 디즈니에 5억 달러에 인수되어도 메이커 스튜디오에 속한 유튜버에게 돌아오는 경제적 유익은 없다.

유튜브 네트워크 입장에서 유튜브의 최근 행보가 마땅치 않다. 유튜브는 음악 생중계 등 프로그램 제작에 직접 나서고 있으며, 유튜브는 첫 번째로 큰 유튜브 채널을 직접 운영하고 있다. 유튜브 네트워크 사업자를 건너뛰고 직접 유튜버와 유튜브가 파트너 관계를 맺을 가능성은 언제나 존재한다.

버즈피드의 유튜브 공세

유튜브 프로그램을 직접 생산하며 유튜브 네트워크 사업자 역할을 동시에 담당하는 기업이 존재한다. 바로 버즈피드다. 버즈피드는 2012년 밈(meme) 영상에 있어 천재 PD로 불리는 제이 프랭크(Ze Frank)영입한다. 초기 버즈피드의 유튜브 채널은 개와 고양이가 주로 등장하는 바이럴 영상을 공개하는 채널이었다. 버즈피드 팝, 버즈피드 센트럴 등 두 개 채널에 2014년에 들어서면서 버즈피드 비디오, 버즈피드 엘로우, 버즈피드 블루, 버즈피드 바이올렛 등 네 개 채널이 추가되었다. 6개 이르는 버즈피드 유튜브 채널은 2014년 8월 기준 월 4억 조회(Views)를 기록하고 있으며, 2014년 9월 기준 하루 평균 5개의 동영상을 공개하고 있다. 유튜브뿐 아니라 버즈피드 동영상은 페이스북, 인스타그램 그리고 야후! 스크린에서 도달율을 점차 높여가고 있다. 버즈피드 동영상 제작에 일하는 직원 규모도 이미 100명에 이른다. 웬만한 뉴스 사업자가 꿈꾸는 수준을 버즈피드는 현실화했다. 리스트클과 퀴즈로 성공을 거둔 버즈피드가 현재 가장 역점을 두고 있는 사업영역이 바로 동영상 사업이다. 버즈피드의 판단에 따르면 광고주의 모바일 머니는 동영상으로 흐르고 있기 때문이다. 한편 버즈피드가 유행시킨 네이티브 광고는 동영상에서 제품간접광고(PPL)와 훌륭하게 만나면서 버즈피드에 핵심 수익원으로 자리를 굳혀가고 있다.

버즈피드의 초기 영상작업은 리스트클로 입증 받은 아래 두 기사를 영상화하는 형식이다.

image 위의 두 리스티클 영상화한 사례, 이미지 클릭하면 영상으로 이동

이러한 영상 스트일 이후에도 버즈피드는 매우 다양하고 흥미로운 영상 형식 실험을 진행하고 있다. 직접 버즈피드의 채널들을 방문해 보시라! 열거하기 어려울 정도로 기획력이 돋보이는 영상들이 넘쳐난다.

몇 가지 예다.

버즈피드 동영상들은 현재 유튜브에서만 월 4억 조회를 기록하고 있다. 특히 2014에 제작된 동영상은 전통 매스미디어 방송의 프로그램과 작지 않은 차별성을 보이고 있다. 나의 테제는 버즈피드 동영상은 인터넷 이용자의 영상습관을 바꿔놓을 가능성이 높다. 버즈피드 영상을 즐겨보는 이용자의 경우, 전통 방송사업자에게 실망하거나 또는 버즈피드류의 프로그램을 요구할 것이다.

동영상 검색과 알고리즘

이용규모로 볼 때 유튜브는 구글에 이어 세계 2위 검색서비스다. 유튜브에게 있어 문제는 구글 검색서비스의 패이지랭크(page rank) 알고리즘을 유튜브에 그대로 적용하기 어렵다는데 있다. 현재 구글이 검색서비스에 적용하고 있는 알고리즘인 구글 허멍버드(Google Hummingbird)의 초기 알고리즘이 패이지랭크다. 패이지랭크는, 서로간에 인용과 참조-이를 인링크(inlink)라 부른다-로 연결된 특정 웹 문서의 순서를 매기는 알고리즘이다.

유튜브 검색 알고리즘은 웹문서 검색 알고리즘과 비교하여 고려할 요소가 더욱 다양하다. 이용자가 특정 영상을 어디까지 보며, 그 이후 어떤 행동을 하는지를 고려해야 한다. 유튜브 채널 구독 패턴을 분석해야 한다. 복수의 동영상을 묶어서 보거나 듣는 플레이리스트(playlist)에 대한 이용패턴을 연구해야 한다. 아래 동영상은 유튜브의 검색 알고리즘을 그나마 가장 세밀한 부분까지 설명하고 있는 동영상이다.

그럼 여기서 '알고리즘(algorithm)'이 무엇인지 살펴보자. 알고리즘에 대한 기초적인 이해를 시도한다.

알고리즘은 인간이 정의한 명령(instruction)의 집합이다

예를 통해 알고리즘 이해를 시작해 보자. 아래와 같은 명령(instructions)을 가정한다.

x를 읽어드려라.
z를 0으로 설정하라.
(while) x가 1이 아닐 동안 다음을 행하라.
(if) x가 짝수이면,
(then) x를 반으로 나누어라,
(else) x를 3배로 곱하고 x에 1를 더하여라
z에 1을 더하여라
z를 출력하여라.

위와 같은 명령들을 구조화된 명령(structured instructions)이라 부르며 이들 명령의 연속(sequence)을 프로그램(program)이라고 한다.
이 프로그램은 그러나 컴퓨터 등 기계가 이해할 수 없다. 따라서 인간이 이해하는 프로그램을 기계가 이해할 수 있는 프로그램(machine program)으로 번역해야 한다. 이 번역기를 컴파일러(compiler)라고 부른다. 예를 들어,

if (a>b) 

를 컴퓨터가 이해할 수 있도록 컴파일러를 통해 번역하면 다음과 같다.

011011101110110111 

인간이 만든 명령의 연속인 프로그램을 컴퓨터가 이해할 수 있도록 번역하여 그 명령을 컴퓨터가 실행하는 것을 프로세스(process)라고 부른다. 그럼 위의 첫 번째 프로그램을 인간이 이해할 수 있도록 실행해 보자. 먼저 x는 3이라고 입력하자.

x z
undefined undefined
3 undefined
3 0
10 0
10 1
5 1
5 2
16 2
16 3
8 3
8 4
4 4
4 5
2 5
2 6
1 6
1 7
출력 7

위 표처럼 x에 3을 입력하니 z인 7이 출력되었다. 이 프로그램의 특징을 살펴보자. 이 프로그램은 일렬의 구조화된 명령을 실행한다. 여기서 구조화된 명령이 가지고 있는 기본 특징을 알 수 있다.

  • 명령의 구조(control structure),
  • IF, WHILE 등으로 표시하는 조건(conditions), 예: IF-THEN-ELSE
  • 조건에 따른 명령 (conditional DO), 예: IF-DO, WHILE-DO
  • 조건과 무관한 명령(primitive instrument, unconditional DO), 예: "x을 읽어드려라", "x는 3이다"

위 프로그램은 콜라츠 추측(Collatz conjecture)이라 불린다. 콜라츠 추측은 '(3n+1) 추측'이라고도 불리는데, 임의의 자연수가 이 프로그램을 거치면 항상 1이 된다는 추측이다. 왜 추측일까? 컴퓨터를 이용하였지만 아직 모든 자연수에 대한 증명은 발견되지 않았기 때문이다. 콜라츠 함수(Collatz function)도 존재한다. 콜라츠 함수는 특정 자연수를 위의 프로그램에 입력하여 1을 얻을 때까지 위에 설명된 '조건에 따른 명령'을 몇 번 반복하였는지를 계산하여 그 반복의 수를 결과값으로 출력한 것을 말한다.

이렇게 특정 프로그램은 특정 문제를 해결하고자 하며, 입력 -> 프로그램 실행 -> 출력의 과정을 거친다. 컴퓨터 등 기계가 프로그램을 실행할 것을 염두해 두고 만든 프로그램을 알고리즘이라고 부른다. 따라서 알고리즘은 아래과 같이 정의할 수 있다.

**알고리즘은 기계를 통해 문제를 해결하고자 인간이 만든 명령의 집합이다** 

한편 알고리즘은 다음의 세 가지 문제를 해결하지 못한다.

  1. 정확성 correctness
  2. 효율성 efficiency
  3. 종료 termination

유튜브 검색서비스 또한 명령의 집합체다. 이용자가 찾고자 하는 키워드가 있고, 해당 키워드와 관련되어 저장된 작지않은 양의 데이터를 유튜브는 보유하고 있다. 이 모두가 입력 데이터다. 입력 데이터는 미리 정의한 다양한 조건에 따라 명령을 수행하는 프로그램의 시작을 알린다.

명령(집합)의 실행 결과가 이용자가 찾고자 하는 검색결과다. 그러나 검색결과가 모든 이용자를 만족시키지는 않는다. 정확성이 떨어지기 때문이다.

검색결과가 나오기 까지 오랜 시간이 걸릴 수 있다. 또는 아주 짧은 순간에 검색결과가 이용자에게 제시되어야 하는데, 그 짧은 순간에 처리할 수 있는 '조건에 따른 명령'의 수가 작을 수 있다. 해당 프로그램의 효율성이 떨어지는 것이다. 효율성은 입력(input)과 결과(output)를 비교하는 수치다.

주어진 입력 데이터와 정의된 조건에 따른 명령이 제한된 시간안에 결과값을 출력하지 못하는 상황이 발생할 수 있다. 그 때 해당 프로그램은 무한 반복(loop)에 빠진다. 종료(termination)의 논리가 완결성을 갖지 못하기 때문이다.

알고리즘은 정확성, 효율성, 종료의 한계를 극복하기 위해 인간의 도움을 필요로 한다. 검색서비스에 대한 다양하고 폭넓은 '논리연구'가 필요한 이유다. 결국 (동영상) 검색서비스의 진화 또는 검색 알고리즘의 진화는 입력 데이터의 풍부화와 프로그램 논리의 진화에 종속한다.