事業戦略部 相澤 祐一
近年、多くの人々が、スマートフォン、タブレットなどのデバイスで撮影した動画に、BGMをつけ、Tik TokなどのSNSサイトで共有するようになった。BGM付きのコンテンツ制作がますます身近になってきているといえるだろう。
一方、BGMの選曲にあたっては、著作権フリーなのか、ロイヤリティフリーなのかを、利用者はきちんと確認する必要がある。BGMの著作権を管理している団体・法人等に無断で使用した場合、その団体・法人等から提訴され、損害賠償の支払いを命じられることもあるからだ*1。
このようなリスクもあるため、HURT RECORD*2、DOVA-SYNDROME*3といった「著作権フリー」の音楽のデータベースの利用が進んでいる。利用者は、欲しいBGMのイメージを検索ワードに落とし込み、BGMをダウンロードして使う。しかし、コンテンツに相応しいと思われる音楽を選択するために、一つ一つ音楽を聴取・確認する手間が発生する。
BGM自動生成技術の活用
BGM選択の手間を減らす方法の1つとして、動画などのコンテンツにあわせたBGMを自動生成するというアプローチがある。
BGMの自動生成に関する研究例をご紹介しよう。
音楽心理学者のHevnerは、音楽が調性、テンポ、音高などの6つの要素から構成されるとして、それぞれの構成要素に、8種類の印象語群が対応する相関係を提唱している*4。この相関係をベースに、任意の単語から、それに近しい印象語群を割り当て、音楽を自動生成する研究例*5や、動画の背景色をインプットとして、色彩とその印象語との対応表をあわせて用いることで、動画にあわせたBGMを自動生成する研究例*6がある。
上記の研究例は、コンテンツに対する印象と、音楽に対する印象とを、共通の印象語によって紐づけるという工夫をしている。しかし、コンテンツと音楽が1つにまとまったものを視聴・聴取した際、それぞれの印象の足し合わせではなく、認知の過程で異なる印象を持つ可能性が考えられる。
例えば、音楽と映像の印象の組み合わせに関する研究例*7において、「音楽のみ」「映像のみ」「音楽動画」に対する印象評価のデータや、様々な音楽と映像を組み合わせて作成した音楽動画に対する印象評価のデータが分析されている。結果、音楽と映像それぞれの印象から音楽動画全体の印象を推定できる可能性が示された。ただし、音楽と映像それぞれから受ける印象の種類によっては、推定時の組み合せ方が異なることが分かった。「コンテンツにあったBGM」の自動生成技術には、このような知見が重要になるだろう。
文章からBGMを自動生成するサービス「Text2Music™」
当社では、文章から抽出した感情や構造からBGMを自動生成するサービス、「Text2Music」*8を開発中である。
「Text2Music」は、動画や音声から取得したスピーチや、テキスト情報をインプットに、大量の文章データベースにおける言葉の組み合わせも考慮したうえで、BGMを自動生成する。一例ではあるが、SNSやブログのテキストの書き手が、自分の思いをよりダイレクトに読み手に共感してもらえるよう、音楽をつけて発信する、といった使い方を想定している。
今後、一般消費者が動画、音声、テキストの発信をより身近に、楽しめるようになるなかで、BGMの自動生成技術は、音楽選択の1つのアプローチとしてますます着目されるようになるだろう。
- *1) JASRACに提訴された事例
- *2) HURT RECORD
- *3) DOVA-SYNDROME
- *4) K. Hevner, "Expression in music: A discussion of experimental studies and theories", Psychological Review, Vol. 42, pp. 186-204, 1935
- *5) 芳村亮, 中西崇文 , 北川高嗣,"任意の言葉の印象と音楽心理学に基づく楽曲自動生成方式", 電子情報通信学会DEWS2007 A3-3,2007
- *6) 藤井ほのか, 齋藤康之, 嵯峨山茂樹, "カラー画像内の対象物と背景からの印象語抽出に基づく楽曲の半自動生成", 情報処理学会研究報告(Web), Vol.2017-MUS-115,No.59,1-6
- *7) 大野直紀, 土屋駿貴, 中村聡史, 山本岳洋, "独立した音楽と映像に対する印象評価と音楽動画の印象の関係性に関する研究", 情報処理学会論文誌, Vol.59 No.3 pp.929-940, 2018
-
*8)
https://youtu.be/kG3K3TeBzuQ
- * Text2Musicは、みずほ情報総研株式会社が商標登録出願中です。