<コーナー解説>
ITソリューションの導入に関し、背景や動機、選定要素と運用ポイントを聞く事例記事です。
音声合成ソリューション
読み上げ精度、話者の多様性、安定性
印象を決める“声”を創る3大要素
顧客からの電話をナビゲートする機械音声。違和感なく案内できる音声合成の実現には、「読み上げ精度」「話者の多様性」「安定性」の3つの要素が求められる。主要各社の音声合成ソリューションの特徴をもとに、トレンドを検証する。
「オデンワ、アリガトーゴザイマス」。テキストデータから人工的な音声を生成する技術「音声合成(Text To Speech)」が飛躍的に進化を遂げ、より肉声に近いなめらかな “発話”が可能になりつつある。近年は「電話の自動応答」をキーワードとして、リクエストに応じて顧客情報などの任意のテキストを音声合成する「リアルタイム型」 を検討するケースが徐々に増えている。今後、電話の自動応答の普及を見据え、「(1)読み上げ品質」「(2)話者の多様性」「(3)システムの安定性」の3つを比較検討ポイントとして、主要各社のソリューションを検証する。
図 主な音声合成の用途
記事内で取り上げているベンダー(掲載順)
HOYA
NTTテクノクロス
エーアイ
ソフトバンク
アニモ
2024年01月31日 18時11分 公開
2019年04月20日 00時00分 更新
コールセンター「DX化」の絶対条件 『シニアのデジタルシフト』講座
<コールセンター「DX化」の絶対条件 『シニアのデジタルシフト』講座・…
倉橋美佳
コンタクトセンター・アワード2024 最終審査会を開催
最優秀部門賞で4社、個人賞で11名…
三菱UFJ信託銀行、生成AIで社内問い合わせ業務の一部を自動化
担当部署の対応時間を5割削減
パーソルグループ、BPO事業を再編し新会社パーソルビジネスプロセスデザ…
RightTouch、Web・電話対応連携サービス「RightCon…
入力内容から、生成AIが適切なオペ…
三井住友フィナンシャルグループ、アバター接客サービスの実証実験を開始
AVITAのアバター接客サービス「…