こんにちは。AIチームの二宮・東です。
2022年8月29~30日にNLP若手の会 (YANS) 第17回シンポジウムがオンラインで開催されます。AI Shiftからは2件のポスター発表を行います。
今回はその発表内容をご紹介いたします。ご参考になれば幸いです。
ポスター発表①
MC Dropoutに基づく確信度を用いた回答可否の予測を伴う対話システム
- 日時:2022年8月29日 14:30 - 15:30
- セッション:ポスターセッション(2) [P2-1] MC dropoutに基づく確信度を用いた回答可否の予測を伴う対話システム
- 著者:二宮大空,下山翔,戸田隆道,邊土名朝飛,杉山雅和,友松祐太
弊社ではAI Messenger Voicebot(以降、Voicebot)という、電話応対業務の自動化を行うサービスを提供しております。Voicebotにはユーザの質問に1問1答形式で答えるFAQ応答機能があります。これは事前に準備したFAQセットの中から質問に最もマッチするFAQを返す仕組みとなっています。
研究背景
通常Voicebotの応答は電話上で行われるので、Voicebotが話している間ユーザは聞き手に専念することになります。そのため、システムの回答が誤りである場合、その回答を全て読み上げるまでユーザには待機していただくことになります。(ユーザの発話をシステムの応答途中に受け付けることも可能ですが、これを行うとシステムの発話数も増えてしまいます。)これでは、ユーザが億劫に感じてしまい、途中で電話を切ってしまうことが考えられます。
そこで、もし回答の確信度が低い場合を識別できれば、「回答が見つかりませんでした」と応答したり、「(回答A)でしょうか?(回答B)でしょうか?」など選択肢の提示をしたりすることで、解決率の向上に繋がるのではないかと考えております。
研究概要
本研究では、MC Dropoutを用いてニューラル検索モデルの回答の確信度を求める手法を提案しています。MC Dropoutについては過去のTech Blog「TransformerモデルへのMC Dropoutの適用」も併せてご覧ください。
今回、ニューラル検索モデルにはBi-Encoderを用いました。具体的には、BERT2つからなる検索モデルを、Dense Passage Retrieval(論文)のRetrieverと同様の学習を行っております。
MC Dropoutは、簡単に述べますと、シード値が異なるDropoutを推論時に任意の回数分実行することで、その予測値の分布を近似的に求めることができるというものです。今回の場合、推論回数を100回と決めて実験しておりますので、ある質問に対して同じFAQが80回選択された場合、その選択したFAQの回答の確信度は80%として扱っております。
実験
FAQ検索システムの対話ログを用いて実験を行いました。
ポスターでは実験結果として、予測が正解だった場合の事例と、予測が不正解だった場合の事例に分けてその確信度を箱ひげ図に表しました。すると、単純なBERTの出力ベクトル同士の類似度よりも、MC Dropoutで求めた確信度の方が、回答が誤りである場合を明確に識別できている傾向にありました。
また、検索モデルの予測の正誤をラベルとして、MC Dropoutの確信度に基づく二値をモデル予測として、Precision, Recall, F1を算出しました。その結果、MC Dropoutの方が単純なBERTの出力ベクトル同士の類似度よりも高い分類性能を示しました。
今後の展望
本研究を通じて、MC Dropoutで求めたスコアを確信度として利用することの可能性が見えてきました。ただし、本手法を行うことで、推論コストの増加や推論速度の低下が予測されます。また、回答の確信度をどのように利用すればUXが向上するのかも、定かではありません。今後はこれらの調査を進めつつ、ユーザの使いやすい音声対話システムの構築を目指していきたいと考えております。
当日は上記のような点も含め、様々な観点から皆様と議論させていただきたく思います。どうぞよろしくお願いいたします。
ポスター発表②
特定の文脈における正規表現を用いた電話音声認識のドメイン適応の検討
- 日時:2022年8月29日 16:00 - 17:00
- セッション:ポスターセッション(3) [P3-10] 特定の文脈における正規表現を用いた電話音声認識のドメイン適応の検討
- 著者:東佑樹,友松祐太
研究背景
弊社が運用しているVoicebotでは様々な電話応対業務を自動化するサービスとして、多くの企業や自治体に導入させていただいておりますが、それらの対話シナリオの中には予めユーザの発話内容が想定可能な場面が存在します。
例えば電話番号をヒアリングする場面だと、ユーザは”[3桁の数字]-[4桁の数字]-[4桁の数字]”のパターンで発話することが想定されます(もちろん市外局番が2桁または4桁の場合、ハイフンを発話しない、末尾に「です」がつく、フィラーの挿入など実際には様々な発話パターンが存在します)。
そのような発話内容はしばしば本人確認(e.g. 会員ID)や配送先の確定(e.g. 住所末尾の地番情報)など「誤認識のリスクが高い」場面での使用が想定されており、高い精度の認識結果が求められます。
そこで、そのような特定の発話パターンに特化した音声認識モデルの実現を目指して現在研究を行っています。
研究概要
本研究では、学習済みモデルを転移学習させることでこの課題の解決を試みました。
学習済みモデルは日本語話し言葉コーパス(CSJ)によって学習されたモデルを利用し、転移学習にはGoogle Text-to-Speech APIを用いて合成した音声を利用しました。
また、転移学習に利用した音声は、想定発話パターンを包含する正規表現を作成し、そこから得られるテキストを基に音声合成しました。
評価実験では、弊社で運用しているVoicebotを通して収集した音声を用いて認識性能を評価しました。
残念ながら現時点では電話音声に対して期待される性能は出ておらず、その原因を調査中です。
始まったばかりの研究内容で大変恐縮ですが、当日は皆様からの貴重なご意見をいただいたり、議論をさせていただければと思います。
おわりに
AI Shiftでは萌芽的研究も複数行っており、チャットボット・ボイスボット事業の更なる改良に向けて様々な角度から研究開発を進めております。
NLP若手の会 (YANS) 第17回シンポジウムにご参加されている方の中で、上記の発表内容に少しでもご興味を持っていただいた方には、是非とも当日のセッションにお越しいただけますと幸いです。まだ始まったばかりの研究内容ですので、皆様と様々な観点から議論ができればと思います。
CyberAgentグループからはAI Shift以外にも発表がございますので、そちらの発表にも是非お越しください。