こんにちは、AIチームの友松, 杉山, 戸田です。
9/23(水)にNLP若手の会 (YANS) 第15回シンポジウムがオンラインで開催されました。弊社からは2件の発表を行いました。(うち1件は東京都立大学小町研究室との共同研究)
- 対話データからのユーザーの行動予測の検証
○戸田隆道,友松祐太,杉山雅和(株式会社AI Shift) - 音声認識誤り検出における文単位のラベルからの単語単位の誤り予測
○吉村綾馬(都立大),杉山雅和,友松祐太(AI Shift),小町守(都立大)
なお、発表の事前告知については、以下のブログを御覧ください。
本ブログでは発表/参加報告および気になった発表を掲載できればと思います。
発表方式
今年の発表は従来の合宿形式+ポスターがメインの発表形式から大きくスタイルを変えて、1day+Discordを使用したオンラインの開催になりました。
発表者は事前録画による3分の動画を掲載しており事前にそれを見ておく形式で、当日はグループQAという形で1分の発表と4分の質疑応答の時間になっていました。
グループQAは1発表あたりグループを変えて2回のグループQAの機会がありました。
オンライン環境について
学会のスタイルがオンラインが主流になってから言語処理学会, 人工知能学会に参加してきましたが、Discordを使ったケースは初めてでした。
良かった点としては
- 求めているセッションを探すのが楽(voiceチャットを回遊すれば見つかる)
- 音声でのコミュニケーションが非常に取りやすい
- 画面共有が複数同時にできるので、接続テストや発表者の切り替えがスムーズ
- Slack + Zoomと比べて発表とコメントが統合されているので使いやすい。また、コメントのログを追いやすい
改善点としては
- ネットワーク環境によって発表に苦労されている方がいた
- 画面共有が途中で落ちてしまう
- 音声の途切れが激しい
- たまにハウリングが気になる(イヤホンマイクで解決しそう)
自分自身も社内のテックカンファレンスの運営を最近やったのでオンラインのツール選定は非常に難しいなと感じました。Zoomなどとはまた違った体験ができてよかったと思いました。
AI Shiftからの発表
対話データからのユーザーの行動予測の検証
○戸田隆道,友松祐太,杉山雅和(株式会社AI Shift)
こちらの発表では、カスタマーサポートで蓄積された対話データの活用方法について発表しました。現在の研究ではユーザーの解約行動の予測を行っているのですが、「解約行動を防ぐためのキャンペーンを打つ」のようなビジネスの意思決定に使いたいと考えているので、予測の解釈性が重要になってきます。BERTなどのNN系のモデルを使用する時、このあたりをどのように設計するべきか、などを議論させていただきました。
頂いたご意見を以下に記載させていただきます。
- 雑談や遊びたがってるユーザーに対応できるようになると面白いかも
- NN系の解釈モデルだとLIME(https://github.com/marcotcr/lime) という手法がある
- 解約予測以外の応用先として、ユーザIDなどを利用して社内の他サービスのデータと結び付けられるならばレコメンドなどへの応用が考えられそう
音声認識誤り検出における文単位のラベルからの単語単位の誤り予測
○吉村綾馬(都立大),杉山雅和,友松祐太(AI Shift),小町守(都立大)
こちらの発表では、音声認識結果に含まれる誤り箇所を、アノテーションコストを考慮して単語単位でなく文単位でラベリングしたデータから予測を行う研究について発表しました。また実サービスへの適用を考えたときに一般的なコーパスだけでなくそのサービスのデータでfine-tuningすること、また素性としてBERTによるembeddingを用いることで結果が良くなることを示しました。
ありがたいことに発表ではいくつも質問をいただきました。質疑の内容は以下の通りです。
- 通信系、メディア系を異なるドメインとしているが、データの傾向はどれくらい違うのか?単語、言い回しなど
- 単語レベルでは結構異なる。どちらも問い合わせデータなので言い回しはそこまで変わらない。
- 音声認識エンジンこそがドメインでは?業務領域よりエンジンの方が癖がありそう。
- プロダクトへの適用時は基本的に音声認識エンジンを固定するため、今回はそちらをフィーチャーしていないが、汎用的にできると他プロダクへの転用も考えられるため、そちらも研究テーマとして面白そう。
- 単語へのアテンションでやるのは適切?
- この手法はリーズナブルなのか?そもそもアテンションはそのように使われることは想定されていないのでは?
- 文単位でラベルをつけるのは、結局単語を見ていく必要があるのでアノテーションは楽になってないのでは?
- 途中の単語に誤りがあれば文を最後まで見る必要がないこと、ラベル入力が単語数分から1つになることで、作業時間は減る。2名で検証したところ、約2倍ほど文単位の方が早かった。
- 2倍程度であれば頑張って単語単位でつけた方がいいのでは?
- 単語単位の教師ありの方が学習コストが低いので、そちらの方がいいかも
- 正解テキストとの最長共通部分列とればアノテーターいなくても単語単位の学習データは作成できるのでは?
- 音声コーパスのないドメインデータや、プロダクト適用時には音声認識結果の正解テキストがないので、それはできない
- typoデータなど擬似誤りテキスト使えないのか?
- 日本語Wikipedia入力誤りデータセットを用いて実験を行なったが思うような精度向上が見られなかった
気になった発表
今回は対話システムおよびナレッジ構築の研究を中心に見させていただきました。その中で気になった研究発表をいくつかピックアップさせていただきます。
選択肢提示型チャットボットのためのQAの自動シナリオ化へ向けて
○竹林佑斗,山村崇,勝田哲弘,久本空海,高岡一馬,内田佳孝(ワークス)
こちらの研究は1問1答型のQAシステムからシナリオ型のQAを構築するといった内容になっていました。AI Messengerでも同じような形式のチャットボットを提供しており、シナリオ型のQAシステムの構築は分岐が多くなると非常に大きな工数となってしまうため、同じような課題感を抱えていました。
新聞記事での共起回数を用いた関連企業の抽出
○石原祥太郎(日本経済新聞社)
こちらの研究は、入力に企業名を入れると関連企業を抽出する研究でした。単純に精度高く抽出できることに加えて応用研究なので、計算量が少ない点もポイントだと思いました。また、グループQAの議題にもなっていた協業なのか競合なのかを判別するのは難しいのかなと感じました。また、よくあるEmbedding以外のアプローチも知りたいと思っていたので参考になりました。AI Messengerでも質問応答の際に関連企業や関連サービス名を 意味が近い
or 同じ意味
の単語として認識させたいシーンが多々あるので、参考にさせていただきたいと思いました。
未来の文脈を利用した対話応答生成
○岸波洋介(東北大),赤間怜奈(東北大/理研),佐藤志貴(東北大),鈴木潤,乾健太郎(東北大/理研)
こちらの研究は、学習時に未来の文脈もSeq2Seqに学習させることによって対話応答生成に影響を与えるのかを分析し、精度向上をはかった研究でした。未来の文脈を学習させることによって生成するシステムの応答に対して返答しやすい文を生成しやすくなるという傾向が見られたそうです。AI Messengerに当てはめてみるとオペレータによる有人対応がまさにそのような応答を考えているのかなと思い、オペレータの応答文作成支援などに応用できないかと思いました。
宿推薦における抽象的な要求に対する根拠付き推薦文の生成のためのレビュー返信文の活用
○根石将人(東大),叶内晨(Megagon Labs),大内啓樹(理研)
こちらの研究では、ユーザからの抽象的な要求に対して根拠をあげて推薦を行うという研究でした。タスクとしては2種類あり、1つ目は抽象的な要求に対してあるレビューが推薦の根拠になっているかの2値分類タスク、2つ目はレビュー文から推薦文への言い換えタスクとなっていました。また、実験で用いたデータセットにはユーザからのレビュー文と宿からの返信文が含まれており、どちらを由来とした推薦文が良いかの評価も行われていました。AI Messengerでは現状は推薦タスクは存在しませんが、根拠を示した対話型の推薦システムに興味があるので、参考にさせていただきたい研究でした。
終わりに
今回YANS初のオンライン開催となりましたが、体験として非常に良いものでした。自分自身も最近社内のテックカンファレンスの運営をしたので、運営の方々の苦労が目に浮かびました。本当にありがとうございました。
今回は1day開催となりましたが、これまで3回参加をしてきてYANSの醍醐味である合宿形式は言語処理に携わっている皆様とのつながりを広げられる大きな機会だと感じているので来年は現在の状況が収束しオフラインで開催できることを祈っております。