生成AIで広がる商用音楽の可能性【スモビる！ #13】

音楽生成AIが、もはや「普通にカッコいい」「使える」レベルまで達しているので、商用音楽の制作者目線でポッドキャストにてお話しました。

各配信サービスでもお聴きいただけます

※睡眠導入用じゃなければ1.5倍速がおすすめです！
自分でも「牛がしゃべってんのか？」と思うぐらい話し方がゆっくりです。

AIによる要約

このポッドキャストでは、生成AIによる商用音楽の進化とその可能性について述べており、音楽制作のサービスに生成AIを導入することで、クオリティが大幅に向上し、一般利用者でも簡単に高品質な音楽を生成できる現状を紹介しました。特に、SunoやUdioといったサービスが実用レベルに達しており、商用音楽としても十分なクオリティを提供していると述べています。
また、今後の進化として、各パートごとにファイルを出力する機能や曲の長さの柔軟性、既存の音源に対するアレンジ機能などが期待されるとしています。権利問題については、各サービスの利用規約に基づき商用利用が可能である一方、法整備の遅れからくるリスクも指摘しています。
最後に、AIの進化により仮歌シンガーや商用音楽製作者の仕事が減少する可能性を示唆しつつも、AIと人間の協力による新しい形の音楽制作の可能性を肯定的に捉えています。

文字起こしテキスト全文

このポッドキャストでは、スモールビジネスやその周辺のカルチャーについての話題をお届けしていきます。再生ありがとうございます。ウェブディレクションと音源制作を手掛けるシララ株式会社の伊東宏之です。今日は、生成AIによる商用音楽のすごさ、可能性についてお話しします。

スモールビジネスを展開している方の中には、動画クリエイターの方もたくさんいらっしゃると思いますし、そうでなくても、何かの拍子に動画とかビジュアルの背景に流す音楽、BGMが必要になる時ってありますよね。そういった商用音楽をWebブラウザベースで誰でも簡単に導入ができる生成AIが、いよいよクオリティの面で、あるレベルを完全に超えてきたな！という状況です。

この状況というのが、冒頭の自己紹介でも私がお話ししているように、当社でもいわゆる音源制作をサービスメニューとして持っていますので、ビジネス上での影響は当然大きく受けるわけなんですよね。
そういう意味で売上げの増減、主に売上げ減少という意味での怖い面がもちろんあるんですけれども、1制作者目線、1音楽ファン目線を混ぜて、率直に言えば楽しみでしかない、つまりかなり肯定的に（個人的には）捉えています。

その上で、今日は4つのポイントでお話をしたいと思います。
まず一つ目、クオリティがどのぐらいすごいか。
そして二つ目、今後の進化で期待されるもの。
三つ目、権利問題について。
四つ目、いわゆるAIに仕事が奪われる件について、ですね。
では早速お話ししたいと思います。

まず一つ目のクオリティがどのぐらいすごいかということなんですが、結論として、もう現時点で実用レベルだと言えますよね。もちろん音楽の用途とか突き詰め方にもよるんですけれども、一般に開放されている各生成AIの音楽サービスとしては、もう1、2年前の状況とは明らかに違うわけですよね。特にSunoとかUdioというサービスなんかは代表例ですけど、かなり自然でかっこいい曲ができて、歌詞を指定してボーカル入りの曲まで生成してくれるという状態です。もうこれはですね、実物を聴いていただければ一発でそのすごさがわかるので、概要欄にURLを貼っておきますね。

あとはプロンプトで指定するタイプではないので、いわゆる生成AIとしていいのかちょっとわからないんですけれども、SOUNDRAWというサービスもBGMとして必要十分なレベルの素材を提供してくれます。ただこのSOUNDRAWはどちらかというとプリセットのパターンを大量に持っていて、さらにその組み合わせとか微妙なアレンジ違いのパターンとか音色違いのパターンをランダムに提供してくれるアルゴリズムも持っているんじゃないかなという印象です。もしこれを開発者の方が聴いていて違ったらご指摘いただければと思います。今ですね、後ろで流れている音楽もまさにSOUNDRAWで生成したものを私の方でちょっと加工したものです。少し聴いていただきたいと思います。
[♪～]
十分良い感じの音楽ですよね。

では二つ目、今後の進化で期待されるものなんですけれど、個人的に一番進化を期待しているのはパラデータあるいはステムデータとも言われる、つまり各パートごとでファイルを出力してくれる機能、これが欲しいですね。ドラムだけとかベースだけとかボーカルだけとかそういう各パートごとでファイルを出してもらえると、製作者目線でより本格的な利用が可能になります。

今のところSunoもUdioも他にも有名なStable Audioあたりも全部のパートを一つにまとめたファイル、つまり2ミックスのファイルしか出力はしてくれないんですよね。実は先ほどのSOUNDRAWだけはステムデータでファイルを書き出してくれるので、私も課金プランに入っているんですけれども、やっぱりプロンプトによる生成とはちょっと別物なので、一旦今回のカウントから外したいと思います。このステムデータ、パラデータの書き出しが実現すると、例えばベースのパートを好きなように抜き差ししたりとか、ドラムのハイハットのボリュームだけを上げるとか、そういったことが自在になるわけですよね。そうすると音楽の制作知識があったり、そういう環境にある人であれば曲をクオリティアップさせたり、独自のアレンジを加えたりとか、AIとのコラボが実現できるわけですよね。なので、このパラデータの出力というのは非常に期待しています。

余談なんですけれども、もちろん今の時点でも、2Mixで出力されたデータを力技でステム化する方法というのはあるわけなんですよね。そういうアプリが実際にあるんですが、特に最近だとDAWで有名なLogicなんかではその機能が実装されたということでニュースになっていたんですけれども、やっぱり作り込みの自由度を考えると、最初からパラデータで出力できるようになってほしいなと思います。無理やりステム化したデータはちょっと不完全なものが吐き出されたりするので、最初からその機能が欲しいなと思います。

そして、長さの面もまだもうちょっとだけ課題があるなと思います。出力できる曲の長さが今のところどのサービスも制限があるので、場合によってはBGMとして寸足らずになることが多いんじゃないかなと。とはいえ、この収録の時点でSunoがもう最長6分まで曲を伸ばせるようになっているので、この辺ももう時間の問題かなという感じがしますね。あとはBPM、つまりテンポなんですけれども、曲中で細かく指定して変化させることも今のところはできないので、この辺も一応今の時点での課題とは言えそうですね。

さらに進化に注目していることがありまして、これは既存の音源に対してアレンジを加える機能ですね。
これも既にSunoやUdioで実装されているんですけれども、既存の曲とか、あるいは何か自分の作った曲の断片をアップロードしたら、それに対して適切なアレンジとかリミックスをして仕上げてくれるというすごい機能なんですよね。これができるということは、つまりAIが作った曲をまた別のAIが食べて曲を生成するみたいなことが無限にできていくわけで、これはどういう曲が仕上がっていくのか、どういう世界になっていくのかというのを考えると結構ワクワクしますね。

そして3つ目、権利問題です。各サービスの利用契約を見ると、有料版だとおしなべて商用利用が可能になっているので、まずサービス側とユーザー側の契約取り決めに限れば、普通にBGMとして使うには問題なさそうだなと。おおむねこれは今までのフリー素材と同様で、著作権そのものはサービス側が持っていて、ユーザーはそれを使用する権利がありますよというものですね。

ただ、そもそも生成AIと著作権に関して、おそらくまだ各国の法整備というのは整っていないはずですよね。例えばBGMとして動画に当てた曲が盗作だと言われた場合、誰が訴えられるのか。あるいはそれが国境を越えた場合、どういうふうになるのかということですよね。なのでその場合は今のところサービス側は、その使用に関しての責任は負わないよう使うのは自由だけど、何かあれば自分で解決してねというふうに契約を明示しているわけですよね。なのでこの辺がちょっと課題かなと思います。

ちなみに先ほどのSOUNDRAWに関しては、楽曲の時間のうち60%の範囲を自分のオリジナルの音が追加されていれば、自分のオリジナル楽曲としてSpotifyとかで配信していいそうです。つまりラッパーでトラックを自分で作ることができないというような方には、これはもう非常に最適なサービスですよね。SOUNDRAWで書き出された音源に対して全部の時間のうちの60%に自分のラップが載っていれば、オリジナル曲としてApple MusicとかSpotifyで配信できるということですからね。

次、4番目、いわゆるAIに仕事が奪われるという件についてです。まず一つ言えるのは、今後仮歌シンガーのお仕事自体は激減するだろうなと思います。仮歌シンガーというのを説明しますね。例えば、アイドルなどに楽曲の提案を作曲家側が行う際にデモテープを作るわけですよね。その際、サンプルの歌、つまり仮歌を歌う必要があるんですけども、それを歌うシンガーのことを仮歌シンガーと呼びます。これはですね、最近のボーカロイドとか専用アプリケーションの進化も凄まじいですし、SunoやUdioなんかはすでにボーカルが入った状態で曲を生成できますので、ほぼほぼ今後その技術の延長線上で代用されてしまうだろうなと。

もちろんですね、情感のこもったエモーショナルな歌唱でのちょっとしたニュアンスとかは、まだまだ生身の人間しか表現が難しいところがあるので、そこは人間である仮歌シンガーさんに軍配が上がると思うんですけれども、どうしても依頼の総数自体は減るだろうと思います。当社のように商用の音楽を作る製作者サイドの問題もありますね。これも現実を考えると、これまでのような仕事依頼は減るはずですね。

ただ、先ほどのパラデータの件とちょっと共通するかもしれないんですけれども、ひと手間加えるような仕事は当面必要で、AIが仕上げてきた素材に対するプラスアルファのアレンジとか補正の必要というのはどうしても生じるだろうと思います。あるいはそもそもの指示の出し方、AIへのディレクションの部分で、人間側の専門知識がなければ、やっぱり狙う方向への精度も上がりにくいので、シビアな案件になればなるほど、そこは人の手が必要になるだろうというふうに考えています。これはむしろ、AIが人間に近づけばそれだけディレクションの役割が重要になるということで、これはどういう未来が待っているのかですね、結構怖くもあり楽しみでもありますね。

うまく噛み合えばなんですが、音楽屋として提案の数とかスピードがものすごく速くなるというふうなメリットと言いますかですね、いい面はあるかなと思っています。

というわけで、今日は生成AIによる商用音楽のすごさ、可能性についてお話ししました。
これだけAI関連の流れが速い時代に、今お話ししたようなことにどれだけ意味があるのかわからないんですけれども、何かご感想とかフィードバックとかいただけましたらとても嬉しいです。

各配信サービスでもお聴きいただけます

AIによる要約

文字起こしテキスト全文

紹介した音楽生成AI