【AI Shift Advent Calendar 2024】第15回対話システムシンポジウム参加報告

こんにちは、AI Shiftの東(@naist_usamarer)です。
この記事はAI Shift Advent Calendar 2024の2日目の記事になります。

本記事では、2024年11月28日(木)から29日(金)にかけて開催された第15回対話システムシンポジウムの内容について紹介を行います。

また、AI Shiftから2件の発表を行ったので、発表資料といただいた質疑の内容も併せて紹介していきたいと思います。

対話システムシンポジウム

対話システムシンポジウムは、人工知能学会 言語・音声理解と対話処理研究会 (SIG-SLUD)が年に1回開催しているシンポジウムです。

今回は、2022年、2023年に引き続き現地&オンライン(ポスター以外の聴講のみ)のハイブリッド形式で実施されました。

現地会場は前回、前々回と同じく国立国語研究所となりました。

今年の発表件数は以下の通りになりました。

  • 発表件数:62件
  • 招待講演:1件
  • 口頭発表:15件
  • デモセッション:19件
  • ポスターセッション:23件
    • うちデモ有り:3件
  • 国際会議報告:4件

一般発表のセッションは去年と比較して増え、全体として約1.5倍の発表件数となりました。

今年はこれまで開催されてきたインダストリーセッションがデモセッションという形に刷新されたことで、企業からの発表件数が増えたように感じました。

開催されたセッションの中から何点か抜粋してご紹介できればと思います。

招待講演

慶應義塾大学の杉浦孔明先生からマルチモーダル言語処理は世界を変えるのか?という題目で発表がありました。

講演では、マルチモーダル言語処理の基礎や研究の動向、ロボティクスへの応用、評価指標、および取り組み事例について紹介されていました。

個人的には基盤モデルのロボティクスへの応用や取り組み事例の紹介が非常に印象的でした。マルチモーダルLLMの進歩により、「棚の中に入っているものを持ってくる」「会場内の消火器を探す」のような複雑なステップを必要とするタスクの処理が可能になっている等最新の動向を知り非常に勉強になりました。

弊社のプロダクトは基本的にはコールセンターのドメインを対象にしていますが、音声・自然言語処理の範囲に閉じず様々な分野のキャッチアップを今後も続けていこうと思います。

AI Shiftからの発表

AI Shiftからは2件の発表を行いました。各発表の概要は以前の記事をご参照ください。

リアルタイム性と柔軟性を兼ね備えた音声対話システムのための軽量かつ高速な処理手法の検討

リアルタイム性と柔軟性を兼ね備えた音声対話システムのための軽量かつ高速な処理手法の検討

質疑応答

Q. 割り込み発話機能は実際使われるのか?
A. 正常なシナリオでは割り込み発話機能が使用される機会は少ないと考えられるが、スロット訂正の際には利用されることがあると予想される。例えば、ユーザが「19時」と発話したにもかかわらず、システムが誤って「9時」と解釈した場合、その誤りを訂正するためにユーザがシステムに割り込んで発話する状況が考えられる。また、スロット訂正の機会を提供するために、逐次確認発話が有効に機能していると評価されている。

Q. 応答速度ストレスの評価結果について、発話終了検知が適切に機能していたとはどういうことか?
A. ユーザが発話を終えたことをシステムが適切に検知するため、応答までの時間はユーザの発話終了を検知するまでの時間に大きく依存している。したがって、応答速度はおおむね発話終了を検知するまでの時間で決まると言える。このため、応答速度に対するストレスがないということは、ユーザの発話終了をシステムが適切に検知できていることを示す。つまり、応答速度が良好な場合、多くの場合で発話終了検知がうまく機能していたと考えられる。

Q. 定型応答フィラーが不自然になってしまったのはなぜか?
A. 定型応答が各ターンで繰り返されることが鬱陶しく感じられ、さらに音声合成で生成されたフィラーが人間らしくなく不自然に聞こえるため。ここは各ターンにおいて適切なタイミングで人間のようなフィラーを差し込めると自然な対話を実現できるのではないかと考えている。

Q. 4つのモデルのうちどのモデルの性能が最も良かったか?
A. 全てのモデルに課題は残ったが、スロットフィリングについては、LLMを使用しないルールベースの方法で十分対応できることが判明した。ルールベースの方法は、制御性と処理速度の両面でLLMを用いた方法より優位性がある。一方で、発話終了検知に関しては、stabilityを用いた方法と音量ベースVADを用いた方法の両方に改善の余地があることが分かった。

また、当日は実際に電話での飲食店予約対話のデモを用意しました。ポスター発表と同時に行うデモであることとデモに用いる端末が一つしか確保できていなかったということもあり、デモの実施自体が難しかったのですが、一人の方に体験していただけました。デモを体験していただいて感じた課題などの感想を以下に書き下します。

  • ユーザーはbotの機能(ヒアリング項目の複数同時聴取や割り込み発話など)を事前に知らないため、このbotの対応可能な機能を示すようなインタラクションがあると良いと感じました。
  • ヒアリング項目の聴取中に「やっぱり予約やめます」という発話があったものの、このシナリオを想定していなかったため対応できませんでした。このような発話への対応方針については議論の余地がありますが、現状のシナリオでは最終確認の段階以外で予約を取りやめる手段が電話を切ることしかなく、ユーザーにとって不便な点だと考えられます。
  • 周りでポスター発表が行われている環境でも、スピーカー出力での対話が問題なく進行していました。バックグラウンドノイズが比較的小さい音量であれば、システムが正常に動作することが確認できて良かったです。

模範的なクレーム対応のモデル化のための二話者間の通話分析

模範的なクレーム対応のモデル化のための二話者間の通話分析

質疑応答

Q. 今回の研究の活用イメージが湧かないが、どのようなものが考えられるか?
A. 現時点でのタグセットの種類では大まかな傾向を把握する以上のことは難しい。今後オペレーターが顧客対応をする際の発話スタイルや戦略を反映させたタグセットを整備することで、良い対応をした際の具体的な行動の定量化・言語化を行いオペレーター教育支援に繋げていきたい。

Q. コールセンターの会話と日常会話だと対話の性質がかなり変わりそうだが、どのような基準でCEJCを選択したか?
A. おっしゃる通り、かなりドメインの異なる対話であるが、CEJCに含まれる対話はさまざまなシチュエーションが含まれており、それらの多様な対話についてつけられる汎用的なタグセットとして設計されているため、コールセンターというドメインに対しても適用できるのではと考えCEJCを選択した。

Q. 今後タグ付与の精度を上げていくためにどのような改善が考えられるか?
A. 今回のタグセットは音声以外の情報(視線・ジェスチャー表情等)も参照した上でつけているアノテーションであったため、音声情報だけでは分類が困難な発話も多く含まれていた。まずは音声情報だけで明確に判断できる分類基準をコールセンターのドメイン用に作る必要があると考えている。

Q. 「その他」のタグに分類された発話に「苛立ち等を表す言葉が入った」とのことだったが、具体的にどのような発話が分類されたのか?
A. 「その他」のタグに分類された発話の多くは認識誤りを含むか、比較的短い長さの発話が多かった。判断がつきにくい発話も多かったが、オペレーターの発話に対する聞き手反応としての感情の表出を書き起こしたものが多い印象を受けた。

おわりに

対話システムシンポジウムは毎年参加していますが、今回は私、干飯、大竹が発表者として初の参加となりました。発表者として様々な研究者の方と議論する貴重な経験ができました。このような機会を設けてくださった運営委員の皆様、会場を提供してくださった国立国語研究所の皆様、そしてご参加いただいた皆様に心より感謝申し上げます。

今後もこのような場で発表できるよう、日々の研究開発に一層力を入れてまいります。

最後までお読みいただきありがとうございました。
明日は開発チームの吉田による記事が公開される予定です。そちらもお読みいただけると幸いです。

PICK UP

TAG