AIキャラに声をつけようとして3つのツールを試したが断念した話

杏

美帆さん、AIキャラに声をつけて動画にしたいんですけど、どのツールを使えばいいですか？

美帆

結論から言うとね、私は断念したわ。ElevenLabs・声フォント・音読さんと3つ試したんだけど、求めていた声のクオリティに届かなかったの。正直に話すわ。

AIキャラクターの画像が完成したら、次は「声をつけて動画にしたい」と思うのは自然な流れです。実際にいくつかのAI音声ツールを試して、Runwayの動画と組み合わせた口パク動画を作ろうとしました。

結果は断念。ただ、試してみたことで各ツールの特性がわかりました。同じように挑戦しようとしている方の参考になればと思い、まとめます。

目標にしていたこと

やりたかったことはシンプルです。AIキャラクター（美帆・杏）に声をあてて、Runwayで生成した動画と組み合わせた短尺動画を作ること。SNSへの投稿用コンテンツとして使うイメージでした。

「AIで作った画像→AIで動かした動画→AIが生成した声」という、フルAIのコンテンツ制作パイプラインを目指していました。

杏

全部AIで完結させようとしてたんですね。夢がありますね…！

美帆

夢はあるのよ。でも現実はなかなか手強かったわ。

最初に試したのはElevenLabsです。AI音声生成ツールの中では世界的に知名度が高く、英語音声のクオリティは非常に高いと評判のサービスです。

英語のテキストを読ませると、確かに自然で表現豊かな音声が生成されました。ただ、日本語になった途端に状況が変わります。

英語コンテンツを作る方には強力なツールですが、日本語のキャラクターボイスを作るという用途では、今の時点では力不足でした。

杏

ElevenLabsって英語向けのツールなんですね。日本語で使おうとすると厳しいんですか？

美帆

日本語が全く使えないわけじゃないけど、英語と比べると精度の差が大きいの。特にキャラクターに「感情がある」と感じさせる声を作るのは難しかったわ。

次に試したのが声フォントです。日本語に特化したAI音声サービスで、様々な声のバリエーションから選んで使えます。

日本語の読み上げ精度はElevenLabsより自然で、言葉の区切りや基本的なイントネーションはかなり改善されていました。ただ、こちらでも別の壁に当たりました。

音読さんは日本語テキストの読み上げに特化したツールです。手軽に使えてコストも低く、ナレーション用途では使いやすいサービスです。

ただ「キャラクターボイス」として使うには、声の種類や感情表現の幅が物足りませんでした。「淡々と読み上げる」ことは得意ですが、キャラクターらしい個性を出すには向いていないという印象です。

杏

3つ全部試してみたんですね。どのツールも一長一短って感じですか？

美帆

そうね。ツール自体が悪いというより、「私がやりたかったこと」との相性が合わなかったという話だわ。それぞれ向いている用途はちゃんとあるの。

ナレーター的な用途——例えば解説動画のテキスト読み上げや、淡々と情報を伝えるコンテンツ——であれば、これらのツールは十分実用になります。「キャラクターらしい感情や個性を持った声」を作りたいという用途には、今の時点では別のアプローチが必要です。