ソリューション
顧客応対から全工程自動化へ
ボイスボットの進化と可能性
ボイスボット(音声自動応答)は、生成AIの台頭や技術の進化とともに適用範囲を拡大してきた。ただし、「自動化」という意味では、顧客応対業務の一部である「会話・応答」部分にとどめ、後続の処理は人が担うケースが多かった。現在、新たな潮流として後続の処理も含む顧客応対の全工程を1つのプロダクトで完結させようという動きが出てきている。
「ボイスボット(音声自動応答)」とひと口に言っても、その中身は一様ではない。発展段階としては大きく4世代に分かれ、「何をどこまで任せられるか」には大きな差がある(図1)。

第1世代にあたるのはIVRで、顧客のプッシュボタン操作や発話に応じて適切な窓口に振り分ける役割を担ってきた。第2世代のシナリオ型は、企業が想定したシナリオに沿って会話形式で進める仕組みで、一定の自由発話にも対応が可能になった。第3世代のテキスト型生成AIは、現在のボイスボット市場拡大の要因となっている。会話音声をテキスト化し、生成AIが文脈を踏まえて回答文を生成、それを音声に変換して返す。顧客の曖昧な表現にも対応できるため、より柔軟な会話で問題解決に導くことが可能になった。
さらに、この進化系として、第4世代の「マルチモーダル型生成AI」も登場し始めている。Speech to Speech(STS)モデルを用いた音声処理方式に対応。発話をテキストに変換することなく音声情報のまま理解し、音声で応答できる。従来の音声認識、音声合成による処理を行う方式(カスケード構成)で失われがちな「会話の自然さ」を保ったまま、低遅延で応答しやすいことを特徴とする。ただし、テキスト変換しないため、認識結果・文言の制御やログ・監査・検証が難しい側面があるため、「ビジネスユースで本格化するには、1〜2年先」と見るベンダー企業もある。
第4世代の台頭により進展する気配を見せているのは、本人確認、複数システムの参照といった後続の処理も含めた「顧客応対の全工程の自動化」だ。従来のプロダクトにおいても「全工程の自動化」に取り組まれてきたが、後続の処理に必要な情報を取得するためのコールフロー作成や外部システム連携に多くの工数がかかる。そのため、会話・応答の自動化にとどまるケースがほとんどだった。
生成AIの活用により、第3世代でコールフロー作成の手間は大幅に軽減された。第4世代では、これに加えてSTSベースの自然な会話を通じて、必要な情報を正確に取得しやすくなる。実際、こうした方向性のもと、顧客応対の全工程の自動化を見据えたプロダクトを展開する動きが国内でも出てきている。
その一例が、カラクリの『KARAKURI voice agent』だ。STSを中核に据えつつ、場面に応じて従来方式と使い分けられるという。同社Development Group/Product Management Team VP of Product/Team Leaderの川端大貴氏は、「会話が不自然だと途中離脱が起き、その結果コールバックなどの手間が発生しやすくなります。効率化・自動化を狙ったはずが、運用状況によって現場の負荷を高めてしまうといった事態を招きかねません」と指摘。自然な対話は、後続処理の自動化の「前提」と位置付け、ヒアリング内容が比較的、定型的な業種においてプロダクトを磨き込んでいるという。このほかにも、TwilioがOpenAIのSTS機能を含むRealtime APIをTwilioのプラットフォームに統合することを発表している。
ただし、後続処理まで自動化できる可能性が広がったとしても、いきなりすべてをAIに委ねるのは、誤った処理をした場合のリスクを踏まえると現実的ではない。現段階では、後処理内容について人による最終確認・承認プロセスをいれる「Human-in-the-Loop」が現実解といえる。カラクリも、「リアルタイムの会話」と「会話後の処理」に分ける非同期設計を採用し、人の確認プロセスを組み入れている(図2)。この設計により、「例えば100件の処理のうち95件が人間の確認で問題なく通れば自動化へ進める、といった精度基準を各企業のポリシーで設定できるのが利点です」(川端氏)。このように、実績に基づいて自動化の範囲を段階的に広げていくことを想定しているという。

今後は、会話中の情報収集から、判断、後処理まで含めて、「どこをAIに任せ、どこを人が担うのか」を高度に設計・管理する統合プラットフォーム(CXM:顧客体験管理)の重要性が増すと予想される。ボイスボットは、単なる“音声の受付装置”から、顧客応対業務全体の自動化を視野に入れた “ボイスエージェント”へと進化し始めている。