こんにちは。
AIチームの戸田です。
本日開催されました第34回 人工知能学会全国大会のインタラクティブセッションで発表をさせていただきました。
本記事では発表内容の紹介と発表の感想を書きたいと思います。
また、登壇報告についてもブログを書いておりこちらを御覧ください
発表内容
近年カスタマーサポートの分野において注目を集めているチャットボットですが、その運用に非常に多くの手間がかかることが問題視されています。
私達はこの作業を半自動化して行うことのできるシステム、AI Compassを開発しました。今回は、このAI Compassを使って効率化できる作業の一つである、チャットボットの回答ペアの登録のデモをインタラクティブセッションで発表させていただいきました。
チャットボットの回答ペアの登録では、下記の2つの手法が使用されています。
- 文章のクラスタリング
チャットボットが回答できていない対話ログのクラスタリングを行い、類似する問い合わせをまとめます。これにより意味的に似ている文章のまとまりを作ることができます。またクラスタサイズからそのクラスタに類する問い合わせの頻度を推測することができるため、頻度の高いものから回答候補作成に取り組めます。 - 代表文の抽出
1で分類されたクラスタ内の文章に対してそのクラスタ内での重要度スコアを計算し、まとめられた問い合わせの中で代表的なものを抽出します。重要度スコアはTF-IDFを元にしており、レアワードに対してペナルティを与える手法となっています。これにより抽出された問い合わせを代表文として表示することでクラスタの一覧性が向上し、作業の手間が大幅に減ることが期待できます。
手法の詳細は以前書かせていただきましたNLP2020の発表報告にありますので、ご興味のある方はこちらもご参照下さい。
オンラインでの発表について
公式のアナウンスを見たところ、以前のNLP2020とは異なり、事前にポスターを読んでおいてセッション中は質疑応答、という形式が想定されているようでした。
我々はデモを含めた発表をするつもりだったので、ポスターだけでは厳しいかなと思い、限定公開でデモを含めた説明動画をYouTubeアップしました。
発表当日は共有画面を分割して、左半分に頂いた質問をメモしていくことで、途中から入室した方も議論に参加しやすい仕組みを作りました。
いただいたQ&A
- Q. この手法は今試している最中なのか
- 現在、社内では運用の効率化は確認できている。今後お客様に使ってもらっていく段階で確認していきたい
- Q. 最終的に短い時間で正解を見つけられたらよいのか
- 究極的には問い合わせログから自動で質問文を作ること。そこはまだ難しいので、人の手で運用を効率化するためのツールになっている
- Q. 今回一番難しかったところは?
- 「したい」・「したくない」などが同じクラスタに配置されてしまう。
- 否定形の扱いが難しい
- Q. 否定語が入った場合に(例えばマイナスの評価を与えるなど)クラスタリングを分けられそうな工夫はできそうか?
- クラスタリングをして、クラスタの中に否定語が含まれていた場合にもう一段階分ける作業をはさむといった方法が考えられます。E2Eでやる方法もあると思うが、難しいと思うので段階的に取り組んでいきたい
- Q. 階層クラスタリングの枝刈りの基準はどのように決めているのか。
- 様々なクライアントで運用した結果から得られたしきい値をヒューリスティックに選んでいる
- Q. BERT使っているが、単語分散表現を使えば良さそうか?
- 以前はWord2Vecベースのアプローチを使っていた。BERTのほうがクラスタリングの感度が良かった。
- Q. MAXプーリングを使っているのか?
- MAXプーリングとAverageプーリングを組み合わせていた
おわりに
本記事では第34回 人工知能学会全国大会のインタラクティブセッションでの発表内容の紹介とオンライン発表の感想を書かせていただきました。
オンライン発表はメモ取りなどが楽な反面、見に来ていただいている方の表情など雰囲気が掴みづらく、議論が発生しにくかったのが少し辛かったです。今後もオンラインでの発表は増えていくと思うので、色々工夫していく必要がありそうです。
最後までお読みいただきありがとうございました