음악시장과 메타데이터

빅데이터와 사회, 1강

강정수 · 964일전

2014년 2학기, <빅데이터와 사회> 첫 번째 강의 주제는 '음악시장과 메타데이터'다. 강의구성은 가능하다면 음악, 영상, 저널리즘, 검색서비스 등 디지털 시장 중 하나를 매주 소개하고, 이 시장으로부터 강의주제 이야기를 풀어볼 계획이다. 오늘은 '음악시장'을 소재로 하여 '메타데이터'의 의미와 중요성을 설명하고자 한다. 마지막에는 관련 토론 주제를 제시한다. 

스트리밍과 다운로드: 스트리밍이 다운로드 시장을 죽인다

image

2014년 9월 9일 애플은 아이폰 6, 애플 워치 등 새로운 제품을 선보였다. 그 자리를 U2가 함께 빛냈다. 애플은 U2의 새로운 앨범 "songs of innocence"를 약 5억 명에 이르는 아이튠즈(iTunes)의 고객에게 무료로 선물하는 선심을 보였다. 이를 위해 애플이 쓴 돈은 1억 달러에 이른다. 6억 달러는 아이폰 6 (플러스)와 애플 워치의 PR 비용이다. 여기서 가장 큰 이익을 본 주인공은 U2다.

여기서 문제는 아이튠즈 이용자에게 발생했다. '구매'를 하지 않았음에도 불구하고 U2의 이번 새 앨범은 아이튠즈 이용자 계정에 '구매한 아이템'에 자동으로 등록되었다. 선물이라고 이용자의 저장공간에 마음대로 들락날락하는 애플의 행위는 바람직하지 않다.

음악시장 관련해서 주목해야할 사실이 있다. 바로 아이튠즈의 성장률 감소 현상이다. 아래의 그림에서 확인할 수 있는 것처럼 아이튠즈를 통해 음악을 다운로드 흐름이 점차 축소하고 있다.
image

이와 대조적으로 음악 스트리밍 서비스의 대표주자인 스포티파이(Spotify)의 성장세가 눈에 띈다.

image

2014년 8월 MIDIA Research에서 발표한 자료, The Streaming Effect: Assessing The Impact Of Streaming Music Behaviour에 따르면,

  • 2013년 스트리밍 음악시장은 238퍼센트 성장
  • (조사대상 기준) 음악 소비자의 30퍼센트가 스트리밍 서비스를 통해 음악을 소비하고 있으며, 이들 중 1/5가 유료 음악 스트리밍 서비스를 이용하고 있음
  • (조사대상 기준) 음악 스트리밍 서비스 이용자 중 45퍼센트가 동시에 음악 다운로드 소비자이다: 이들의 다운로드가 줄어들 가능성을 예측할 수 있는 부분
  • 2019년 세계 스트리밍 음악시장 규모는 80억 달러 수준으로 발전, 스트리밍 서비스가 디지털 음악시장의 약 70퍼센트를 차지할 전망

이렇게 '디지털' 음악시장은 다운로드에서 스트리밍으로 전환하고 있다. 음악 스트리밍 시장을 주도하는 스포티파이는 2014년 3월에 The Echo Nest라는 음악 데이터 분석 기업을 구매한다. The Echo Nest는 미국 MIT Media Lab의 일부 연구조직이 2005년에 독립 회사로 전환한 경우다.

데이터와 메타데이터

The Echo Nest를 비롯 음악 데이터와 관련된 이야기를 시작하기 전에 몇 가지 살펴볼 개념이 있다.

첫 번째는 메타데이터다.

Metadata is "data about data".

메타데이터는 특정 데이터를 설명하는 데이터를 말한다. 여기서 데이터를 확장해서 이해할 경우, 데이터는 다른 사물과 구별되는 사물을 지칭할 수 있다. 예를 들면 특정 책, 특정 음반, 또는 특정 인물을 지칭한다고 가정해 보자.

  • "책"에 대한 메타데이터는 저자, 제목, 출판년도, 출판사, ISBN 등이다.
  • 음악 앨범이나 개별 곡의 경우, 아티스트, 장르, 발표 시간, 곡의 길이, 파일 형식 등이 메타데이터다.

형이상학으로 번역되는 영어 표현은 Metaphysics다. 여기서 meta는 about 또는 beyond의 의미를 가지고 있다. 따라서 형이상학은 자연(학)(Physics)에 대한 설명을 시도하는 학문으로 이해할 수 있다. 형이상학은 존재 또는 현실태에 대한 전제조건, 원인, 일반적 구조, 합법칙성 또는 의미와 목적 등을 설명하려고 한다.

은유로 번역되는 영어 표현은 Metaphor다. 윌리엄 셰익스피어는 <뜻대로 하세요 As You Like It>에서 다음과 같이 인간의 삶을 은유한다.

이 세상은 무대다 All the world's a stage,

그리고 모든 사람들은 배우다 And all the men and women merely players;

그들은 퇴장과 등장을 되풀이한다 They have their exits and their entrances;

메타데이터는, 데이터에서 분석하고자 하는 데이터를 분류하는 작업인 데이터 마이닝에서 중요한 역할을 담당한다.

아래 그림은 2014년 2월 탐사저널리즘을 대표하는 Propublica에서 공개한 구 동독 국가보안부 또는 슈타지(Stasi: Staatssicherheit의 줄인 표현으로 영어로는 state security) 문서다. 특정 인물을 메타데이터로 표현한 훌륭한 예다.

image
(출처: ProPublica)

메타데이터 수집에 열을 올리는 집단이 현재에도 있다. 바로 미국의 NSA(National Security Agency)다. NSA가 스마트폰의 이용자의 메타데이터를 수집한 사실에 대해 다수 정치인과 언론은 '데이터가 아닌 메타데이터로 특정 개인에 대해 알 수 있는 바는 크지 않다'고 말한다. 과연 그럴까? 네덜란드 탐사저널리즘 De Correspondent의 Dimitri Tokmetzis는 스마트폰의 메타데이터가 특정인의 정치성향, 건강상태 등을 정확하게 설명할 수 있음을 증명하고 있다.

image

그림 하단의 "GroenLinks"는 "녹색좌파당"이라는 표현이다. 아래 그림은 Ton의 메일에서 뽑아낸 메타데이터 GroenLinks와 연결된 이메일 계정의 네트워크 지도다.

image

메타데이터의 위력은 2014년 3월에 공개된 미국 스탠포드 대학교 연구결과에서도 확인할 수 있다. 스탠포드 대학교 Security Lab 연구진은 2013년 11월 스마트폰의 메타데이터를 수집하는 'MetaPhone'앱을 실험대상자의 휴대폰에 설치하였다. 연구 결과는 메타데이터 분석을 통해 스마트폰 이용자의 종교, 성적 취향, 정치적 성향, 건강 상태를 진단할 수 있다고 주장하고 있다.

메타데이터 수집과 분석이 그렇다고 부정적 영역에 제한되는 것은 아니다. 잘짜여진 메타데이터 구조는 데이터 표준화, 데이터 상호호환성 등을 위해 절대적으로 필요하다. 대표적인 표준 메타데이터 구조가 Dublin Core, RDF 등 이다.

Dublin Core는 도서관 및 웹의 자원/데이터를 표준화하고, 서로를 연결하는 15개의 메타데이터를 담은 메타데이터 목록이다.

image
1994년 월드와이드웹 컨퍼런스에서 결정된 더블린 코어는, 표제(Title), 제작자(Creator), 유형(Type), 기타 제작자(Contributor), 발행처(Publisher), 날짜(Date), 언어(Language), 형식(Format), 설명(Description), 주제(Subject), 관계(Relation), 식별자(Identifier), 권한(Rights), 출처(Source), 범위(Coverage) 등 15개의 메타데이터로 구성되어 있다.

Dublin Core가 보다 진화한 형태로, 기계(=컴퓨터) 스스로가 서로 다른 시스템에서 생산된 메타데이터를 판독하고, 분류하고 저장할 수 있도록 만든 메타데이터 '문법'을 RDF(Resource Description Framework)라 부른다.

6단계 분리 이론(six degrees of separation)

두 번째로 살펴볼 개념은 6단계 분리 이론(six degrees of separation)이다. 1967년 미국 사회학자 스탠리 밀그램(Stanly Milgram)은 현대 사회는 매우 작은 수의 인간 관계로 서로 연결된 관계망이라고 주장한다. 이를 증명하기 위해, 밀그램은 특정 편지가 미국 서부에 살고 있는 사람(X)으로부터 시작하여 자신의 지인에게 전달하는 방식으로 미국 동부에 살고있는 최종 수신자(Y)에게 도달하는 길을 추적하였다. 300명을 대상으로 했던 이 실험에서 편지가 X를 출발하여 Y에 도착하는 과정에서 거친 사람의 수는 평균 5.5명이었다.

image

밀그램의 실험은 "Small World Experiment"로도 불린다. Small World 실험은 네트워크 이론과 결합하면서 다양한 모델 실험으로 이어진다. 특히 1999년 이후 얼베르트-라슬로 버러바시(Albert-László Barabási)의 주도아래 발전된 '척도없는 모델(scale-free network)'은, 승자독식 현상(A Winner Takes All) 등 Small World의 다양한 속성을 분석하는데 뛰어난 설명력을 가지고 있다. 버러바시의 척도없는 모델에 대해서는 6강에서 다루도록 한다.

image

음악 메타데이터와 뮤지션의 6단계

6단계 분리 이론을 네트워크 구조에만 적용할 필요는 없다. 음악의 메타데이터를 활용하여 뮤지션 사이의 연결 구조를 살펴보자.

  • 에릭 크랩튼(eric clapton)과 저스틴 비버(Justin Bieber)

    1. 에릭 크랩튼은 "I wish it would Rain"라는 곡에 필 콜린스(Phill Collins)와 함께했다.
    2. 필 콜린스는 어셔(Usher)가 부른 "You'll be in my Heart"를 작곡하였다.
    3. 어셔는 저스틴 비버의 "First Dance"에 참여했다.

    이렇게 에릭 크랩튼과 저스틴 비버는 3단계를 통해 연결되어 있다.

  • 비욘세(Beyoncé)와 2NE1

    1. 비욘세는 걸그룹 Destiny's Child의 리드 싱어였다.
    2. 데스티니스 차일드(Destiny's Child)에서 백 보컬을 담당한 사람은 켈리 롤런드(Kelly Rowland)다.
    3. 켈리 롤런드는 DJ겸 프로튜서인 데이비드 게타(David Guetta)와 함께 "When Love Takes Over)"라는 곡에 참여했다.
    4. 데이비드 게타는 윌.아이.엠(will.i.am)과 함께 "I Wanna Go Crazy"라는 곡에 참여했다.
    5. 윌.아이.엠은 2NE1과 함께 "Gettin' Dumb"에 참여했다.

    비욘세와 2NE1는 다섯 단계를 통해 연결되어 있다.

위의 두 사례는 큰 의미가 있지도 않으며, 그 관계망을 분석하기 위해 대단히 뛰어난 기술력을 필요로 하지 않는다. 다만 음악과 뮤지션에 대한 메타데이터가 충실하게 갖춰져 있을 경우 쉽게 발견할 수 있는 관계망이다. The EchoNest가 제공하는 Black Sabbath를 통해 뮤지션 사이의 Small World를 직접 확인할 수 있다.

음악 관련 (메타)데이터를 얻을 수 있는 곳으로 다음 두 곳을 추천한다.

메타데이터와 추천 알고리즘

특정 음악 또는 뮤지션에 대한 (메타)데이터가 증가하고 정교할 수록, 음악 또는 뮤지션 추천 알고리즘은 함께 진화한다.

  • 초기 음악 추천 알고리즘은, 특정 음악 또는 뮤지션의 1차 메타데이터로부터 또 다른 음악 또는 뮤지션을 추천한다. 예를들면, 비틀즈를 소비한 이용자에게 폴 메카트니 또는 존 레논을 추천하는 방식이다.

image

  • 추천 알고리즘의 진화는 (1) 메타데이터의 병합과 (2) 새로운 데이터 생성을 통해 가능하다.
  • 새로운 데이터로 '팬 열정 지수(fan passion index)'를 만들 수 있다.
    • 헤비 메탈 팬과 R&B 팬 중 어느 그룹이 더욱 열정적인 팬일까?
      • 팬 그룹마다 월 기준 평균 플레이 수와 평균 곡 수를 이용해 '팬 열정 지수'를 만들 수 있다.
      • 헤비 메탈 팬의 팬 열정 지수가 R&B 팬의 팬 열정 지수보다 높을 가능성이 크가.

image

  • 개별 메타데이터에 가중치를 부여하는 일이 추천 알고리즘에 있어 가장 중요하다. 아래 그림은 비틀즈에서 도출할 수 있는 이른바 워드클라우드(WordCloud)다.
    • 뮤지션의 인기도(popularity)를 고려한다.
    • 뮤지션과 친밀도(familiarity)가 높은 메타데이터를 도출한다.
    • 뮤지션 사이의 관계(relations)을 고려한다.
    • 뮤지션이 주요 활동 시기(years)를 고려한다.
    • 팬 열정 지수를 고려한다.

image

  • 아래 그럼처럼 뮤지션의 이웃 관계망(neighbor graph)을 그린다. 이웃 관계망의 품질 또는 소비자 만족도가 추천 알고리즘의 유효성을 결정한다.

image

  • 비틀즈를 좋아한다면, The Beau Brummels를 추천한다.

image

  • 비틀즈를 좋아한다면 Emitt Rhodes를 추천한다. image

음악 또는 뮤지션 등 특정 데이터에 대한 메타데이터는 고정된 상태에 머물러서는 안된다. 연관 (메타)데이터를 분석하여 끊임없이 새로운 메타데이터를 생산해야 한다. A/B Test 등 새롭게 생산한 메타데이터의 유효성 점검을 진행하는 일이 추천 알고리즘을 고도화하는 과정이다.

메타데이터의 유효성은, 특정 소비가 또 다른 소비를 연결시키는 가능성 수준으로 판단한다. 때문에 메타데이터는 새로운 소비로 이어지는 길과 다리로 이해할 수 있다.

메타데이터와 이에 기반한 추천 알고리즘은, 한편으로 소비의 만족도를 높일 수 있지만 다른 한편으로 이용자를 소비자본주의의 극한으로 몰고간다.

토론 주제: 메타데이터와 감시사회

미국 NSA의 메타데이터 수집과 관련한 비판적 토론이 필요합니다. 사생활(privacy) 침해 관점이 아닌 메타데이터를 소재로 논의를 진행하고자 합니다.

참조 글은 재프 자비스의 "Metadata is knowledge and knowledge itself is not the problem."이다.

강의자료 내려받기