こんにちは.AIチームの二宮です.
この記事はAI Shift Advent Calendar 12日目の記事になります.
今回は学会発表のご連絡になります!
12月13日(火)〜12月14日(水)の2日間にかけて第13回対話システムシンポジウムが開催されます.AI Shiftからは二宮から1件のポスター発表を行いますので,本記事ではその研究の概要について簡単にご紹介いたします!
チャットボット事業におけるDense Retrieverを用いたZero-shot FAQ検索
- 発表日時 2022/12/14(水)14:10-15:40 ポスターセッション2
- ポスター番号 41
- 著者 二宮 大空,邊土名 朝飛,杉山 雅和,戸田 隆道,友松 祐太
この研究はチャットボット事業で利用されているFAQ検索についてです.
(FAQ検索については,以前こちらの記事でも紹介させていただきました.)
FAQとはよくある質問集(Frequently Asked Questions)を指しており,質問と回答のペアを複数まとめたものになります.そしてFAQ検索は,ユーザの質問に対して適切なFAQを選択するタスクになります.
今回の研究ではFAQ検索をDense Retrieverで行いました.このDense Retrieverはオープンドメイン質問応答で有効な手法であり,Karpukhinらの提案するモデルDPRのRetrieverを指しています.モデルサイズはおおよそBERT2つ分であり,Dual-Encoderモデルとなっています.
オープンドメイン質問応答においてDense Retrieverは大規模文書を用いて学習しますが,チャットボット事業におけるFAQ検索の場合は,ドメインの異なる複数の顧客の対話ログを元に作成されたデータで学習しています.そのため,検索対象である文書が事例ごとに異なり,負例の選択方法を工夫する必要があります.さらに,対話ログが一定数存在する顧客を想定した既存ドメインでは検索精度が高い傾向にある一方で,これから導入を始める顧客を想定した新規ドメインでは検索精度が低い傾向にあります.
そこで本研究では(1)負例選択の比較と(2)GPT-2を用いた訓練データの拡張を行い,その有効性を検証しました.最終的に表層検索であるBM25と提案する学習を行ったDense Retrieverを組み合わせることで,新規ドメインにおいてより高い検索精度を達成しました.
現在AI Shiftではチャットボット事業だけでなく,電話応対の自動化を行うボイスボット事業を行っております.ボイスボット事業の場合,システムの入出力がテキストではなく音声であることから新たに考慮すべき課題が多々あります.学会当日は,ポスター発表の内容だけでなく,これらの音声対話システムを考えた上での課題感や,FAQ検索を事業で用いる上で感じた難しさなど,幅広く議論できればと考えております!
おわりに
今年の対話システムシンポジウムはオンラインとオフラインのハイブリッド開催となりました.少しでも興味を持っていただけましたら,是非見にきていただけますと幸いです.皆様とお会いできることを楽しみにしております.
ここまで読んでいただきありがとうございました!
明日はAIチーム杉山の記事になります.
参考
Dense Passage Retrieval for Open-Domain Question Answering (Karpukhin et al., EMNLP 2020)