連載Cocotame Series

音楽ビジネスの未来

『LINE MUSIC』でカラオケを実現させた「音源分離技術」は過去と現在の音をつなぐ夢の技術だった【前編】

2020.12.01

シーンの多様化、マネタイズの在り方まで、今、音楽ビジネスが世界規模で変革の時を迎えている。連載企画「音楽ビジネスの未来」では、その変化をさまざまな視点で考察し、音楽ビジネスの未来に何が待っているのかを探っていく。

今回は、サブスクリプション音楽配信サービスの『LINE MUSIC』が2020年8月に実装したカラオケ機能に注目。このサービスは、ソニーのR&Dセンターが開発した「音源分離技術」を、ソニー・ミュージックソリューションズ（以下、SMS）がコーディネートすることで実現したものだ。

はたして「音源分離技術」にはどんな可能性があるのか。ソニーで開発を手掛けている光藤祐基氏とソニー・ミューシックエンタテインメント（以下、SME）から『LINE MUSIC』に出向している岡隆資、そしてサービスのローンチをコーディネートしたSMSの松崎知子に集まってもらい、テクノロジーから生み出される音楽ビジネスの未来を語ってもらった。

前編では、『LINE MUSIC』と「音源分離技術」がマッチングしたきっかけ、カラオケ機能サービスを実現した「音源分離技術」の仕組みについて聞いた。

「音源分離技術」は、楽曲からボーカルや楽器など特定の音を取り出す技術。ソニーでは、音の特性を理解したAIを組み込み、クリエイターのフィードバックを受けながら10年以上にわたり最先端の「音源分離技術」を開発してきた。ソニーの「音源分離技術」は、国際的なコンペティションであるSignal Separation Evaluation Campaign （SiSEC）にて、多くの研究機関が参加するなか、3年連続でベストスコアを獲得している。
技術詳細はこちら

現場がつないだ技術とエンタメの出会い

――サブスクリプション音楽配信サービスの『LINE MUSIC』では、今年の8月にカラオケ機能が実装されました。このカラオケ機能では、ソニーのR&Dセンターが開発した「音源分離技術」が用いられていると伺っています。まず、『LINE MUSIC』とソニーの「音源分離技術」で出会いから教えてください。

岡：僕はSMEから『LINE MUSIC』に出向していて、『LINE MUSIC』のサービスの成長に取り組んでいます。昨今、Apple MusicやSpotifyなどサブスクサービスの競争が激化するなかで、『LINE MUSIC』としてどう差別化していくかという課題がありました。そんななか、『LINE MUSIC』のユーザーが「カラオケのプレイリスト」を好んで聞いているというデータがあったんです。

現在、『LINE MUSIC』では約7,000万曲を配信していますが、その楽曲をすべてカラオケにすることができれば大きな武器になると考え、いろいろな技術を探していたところ、光藤さんたちが開発された「音源分離技術」に出会いました。

光藤：それまで岡さんとは直接面識はなかったのですが、乃木坂にあるソニー・ミュージックスタジオのマスタリングエンジニアの方が、引き合わせてくださったんですよね。

岡：当時は何かあてがあるわけでもなく、『LINE MUSIC』に出向する前から親しかったソニー・ミュージックスタジオのスタッフに楽曲のカラオケ化に関する技術がないかと聞きに行ったんです。そうしたら、「音源分離技術」を紹介してくれて。

松崎：私は、SMSで新規ビジネス開発やソニーのテクノロジーを使った事業開発を担当しています。そのため、この話が私たちのところにも情報として伝えられたんです。そこで改めてソニーの「音源分離技術」と『LINE MUSIC』のヒアリングを行ない、マッチングしてみようということになりました。

光藤：ソニー・ミュージックスタジオでは、以前から「音源分離技術」をクリエイションに使ってもらっていたんです。これまでにさまざまな有益なフィードバックをいただき研究開発にいかしてきました。

松崎：ソニー・ミュージックスタジオでは、ソニーが開発した「音源分離技術」をいち早く導入していまして、レコーディングやマスタリングの現場で、これまでにない新しい手法のひとつとして使用しているんですね。

いち早くAIを導入したソニーの「音源分離技術」

――そもそも、ソニーが開発した「音源分離技術」とはどういったものなのでしょうか。

光藤：「音源分離技術」とは、音声データから不要なノイズを取り除いたり、楽曲から特定の音声を抜き出したりする技術です。我々は2010年よりも前から「音源分離技術」に関わっていて、当初は従来の統計信号処理で音源を分離していました。

そのころは、もちろん今ほどのクオリティには達していなくて、一般の楽曲ではなく、簡単なメロディを組み合わせた実験用のデータの音源を分離することを目指していました。

それでも、当時の我々にとってはハードルが高い課題だなと思っていましたが、2010年くらいに第3次AIブーム（2010年ころから起きた人工知能技術の盛り上がり）が始まって状況が一気に変わりました。

主に画像認識の領域でAIが良い実績を発揮していると各学会などで話題になっていたんです。そこで我々も音源分離に、AIをいち早く導入することにしました。そうしたら、驚くほど大きな飛躍があったんです。

――いち早くAIを導入したことが、「音源分離技術」で他社をリードすることにつながったんですね。

光藤：「音源分離技術」の国際的なコンペティションであるSignal Separation Evaluation Campaign（SiSEC）で、我々の技術は3年連続でベストスコアを獲得しているのですが、それはほかのコンペチターよりも先にAIを導入して多くの課題に向き合った結果、どこよりも早く乗り越えられことが大きかった。

SiSECにエントリーしたのは、2015年が最初だったのですが、そのときはAIを導入している参加者は我々だけだったんです。そのときはぶっちぎりの成績でベストスコアを受賞することができたんですが、翌年からはAIを導入しているコンペチターが増えました。結果的に僅差でベストスコアを獲得できたのですが、コンペチターが我々と同じタイミングでAIを導入していたら、我々が1位を獲ることも難しかったかもしれません。

ただ、一見するとAIという流行りものに飛びついたように感じられるかもしれませんが、そうではなくて。AIの研究に取り組んだ時期が少しでも早いということは、それだけ試行錯誤をする時間が長くなるということでもあります。AIの領域は進化の速度がものすごく速いので、その時間の有無がコンペチターと差をつける上で重要なポイントになるんです。

原曲の演奏を伴奏に歌える新しいカラオケの姿

――今回のカラオケ機能において、ソニーの「音源分離技術」だからこそ実現できた特徴はどんなところでしょうか。

光藤：『LINE MUSIC』のカラオケ機能には、ほかには実現できない大事な要素があります。それはリアルタイム性ですね。世のなかにはいろいろな「音源分離技術」がありますが、ほとんどの技術は“音源ファイルを読み込んで、音源全体を解析した上で長時間かけて音を分離していく”というものなんです。しかも、コンピュータの負荷も大きい。

我々の技術はスマートフォンでまかなえるぐらいの処理量に圧縮しており、また“音声が入力されるとすぐに分離をかける、そして即時に分離した音を外に出せる”という特徴があります。実際の処理速度では楽曲が流れていくリアルタイムよりも数倍早く分離していて、1分の曲であれば数十秒くらいで分離しています。遅延も小さいためユーザーは、選曲してからすぐ歌い出すことができる。それが今回のカラオケ機能の特徴になっています。

岡：『LINE MUSIC』は楽曲の歌詞を表示することができますが、その画面の下にマイクボタンがあります。そこを押すとカラオケモードになって、すぐにカラオケを楽しむことができるんです。瞬時にボーカルだけを分離できること、それもスマートフォンでできるのが大きいですよね。

光藤：伴奏についても、『LINE MUSIC』ならではの楽しみ方ができます。これまでのカラオケは、いわゆるMIDI音源の伴奏が主流でした。例えば、カラオケボックスで流れる通信カラオケはMIDIの伴奏が使われているので正確にはオリジナルの音源ではありません。でも、この『LINE MUSIC』のカラオケ機能は原曲の演奏がそのまま伴奏となって楽しめるんです。

岡：以前からどうしてカラオケの伴奏は、原曲の音ではないんだろうとずっと思っていました。当然そこには原盤権などの権利処理の問題があるとはわかっていましたが、本当の音でカラオケを楽しみたいという思いを悶々と持ち続けていたんです。自分が持ち続けていた理想のイメージを『LINE MUSIC』で実現できて、本当にうれしいですね。

ユーザーの方からはBGMとして楽しんでいるという声も届いています。そうした付加価値も大きいです。ユーザーの方が自分なりの楽しみ方を見つけてくれる。そういう広がりがあるサービスはそんなに多くありませんから。

光藤：歌声はバラエティに富んでいて、男声と女声など、いろいろな種類の音がありますし、コーラスも加わったりして音の周波数帯も多岐にわたります。また、ドラムのような特定のパターンで構成されている音ではなく、ボーカルの声は時間的な変動も大きいものなので、分離させることがとても難しいんですね。

かつてAIを使わずに音源分離を研究していたときに、ボーカルの声だけを抜くという技術があったのですが、ボーカルの声を抜いたあとは伴奏のボリューム感や音のパンチ力がなくなったり、音色が変わってしまったりということがありました。

今回の技術では、伴奏は原曲のままで、ボーカルだけ聞こえなくなるということがある程度は実現できたのかなと思います。

――「音源分離技術」を『LINE MUSIC』に導入してさまざまな試行錯誤があったかと思いますが、現時点の手応えはいかがでしょうか。

岡：昨年の夏くらいに光藤さんと出会って、だいたい1年くらいでリリースすることができました。その期間内でレーベルからの許諾を得るという作業もありましたが、かなりスムーズにローンチできました。

カラオケ機能をリリースしてみて、会員の維持率なども高い数字が出ていて効果が表われてきています。当初はiOS版にしか実装できていませんでしたが、11月中旬にAndroid版にもようやく実装できました。利用数もこれからまだまだ伸ばしていくことができるんじゃないかと考えていて、より多くの方に知っていただけるように宣伝し、インターフェイスなどもさらに工夫していきたいですね、

松崎：「音源分離技術」は、今回の『LINE MUSIC』のカラオケ機能への導入をきっかけに、我々SMSが事業会社として引き受けました。「音源分離技術」にはカラオケ以外にもビジネスとしての広がりがいろいろと考えられます。もっと活用していただく範囲を広げていくために、具体的なアイデアを考えています。

「音源分離技術」が実現させた新たな音楽ビジネスとして、『LINE MUSIC』にカラオケ機能が実装された。しかし「音源分離技術」というテクノロジーの可能性はこれにとどまらず、さまざまなアイデアが膨らんでいる。後編ではさらなる音楽ビジネスの可能性に踏み込んでいく。

後編へつづく

文・取材：志田英邦
撮影：冨田望