NABLAS、日本語音声を自動生成するモデルを開発

3秒の音声データからリアルな音声を生成可能

AIスタートアップのNABLAS(東京都文京区、中山 浩太郎代表取締役所長)は2024年8月、Googleが開発した音声生成モデル「SoundStorm」をベースに、日本語に対応した音声生成モデルを開発した。これにより、数秒の対話データのみで、話者の声の抑揚や特徴を忠実に模した、日本語の音声生成が可能になる。

 
図1:音声生成モデルの出力イメージ

例えば、数秒の話者Aの音声データと、「今日は良い天気です」と発話する話者Bの音声データを活用して、話者Aの音声で「今日は良い天気です」と発話する音声データを生成できる(図1)。発話困難者の支援や、カスタマーサポートでは顧客の音声を、感情を抑えたものに変換するといった仕組みでオペレータの心的負担を軽減するなどの活用シーンを想定している。

図2:GoogleのConformerモデルをベースに開発

同モデルは、SoundStorm内部に、Googleが開発した、テキストの全体的な文脈と局所的な文脈を同時に捉えることができる「Conformerモデル」をベースに開発しており、音声生成のクオリティとスピードを追求している(図2)。
今後は、音声変換やテキストの読み上げ、リアルタイムでの対話翻訳などへの実装を進めていく。

2024年09月03日 11時49分 公開

2024年09月03日 11時49分 更新

おすすめ記事

その他の新着記事

  • スーパーバナー(コムデザイン)

●コールセンター用語集(マネジメント編)

●コールセンター用語集(ITソリューション編)

記事検索 

  • CS Media「E-Book」

購読のご案内

月刊コールセンタージャパン

定期購読お申込み バックナンバー購入