こんにちはAI Shiftの友松です。3月14日(月)から3月18日(金)に言語処理学会年次大会が行われ、AI Shiftから4件(うち、東京都立大学 小町研究室との共同研究1件, 東北大学 乾研究室との共同研究1件)の発表を行います。
本記事では各発表の概要と議論したいポイントについて取り上げたいと思います。
1. AI Shiftおよび共同研究先からの発表一覧
PH1:ポスター 3月16日(水) 9:00-10:20 | PH1-6 | テキスト生成モデルを利用した対話型広告におけるシナリオ設計に有用なキーフレーズの抽出 | ○戸田隆道, 友松祐太, 杉山雅和, 邊土名朝飛, 東佑樹, 下山翔 (AI Shift) |
PT3:ポスター 3月17日(木) 9:00-10:20 | PT3-11 | 単語の分散表現および音素列の類似性を考慮した単語アラインメントに基づく教師なしEntity Linking | ○邊土名朝飛, 友松祐太, 杉山雅和, 戸田隆道, 東佑樹, 下山翔 (AI Shift) |
PT4:ポスター 3月17日(木) 10:40-12:00 | PT4-7 | 事前学習モデルを用いた音声認識結果からの固有表現抽出 | ○今藤誠一郎, 上田直生也, 岡照晃 (都立大), 杉山雅和 ( AI Shift), 邊土名朝飛 (AI Shift), 小町守 (都立大) |
JED2022 日本語評価用データセットの構築と公開(3) 3月18日(金) 15:30-17:00 | LT | クラウドソーシングに基づく日本語タスク指向型対話収集基盤の構築に向けて | ○邊土名朝飛, 友松祐太 (AI Shift), 阿部香央莉, 佐々木翔大, 乾健太郎 (東北大学) |
2. 各発表の概要と議論したいポイント
2.1 テキスト生成モデルを利用した対話型広告におけるシナリオ設計に有用なキーフレーズの抽出
インターネット広告事業において近年注目を集めている対話型広告、従来のターゲティング型広告にないユーザーに合わせた柔軟な広告展開が期待されていますが、その設計作業に広告ターゲットに関する知識が必要であるという課題があります。
本発表では対話型広告の設計補助のため、生成モデルを利用したキーフレーズ抽出手法を提案し、WikipediaやTwitterなどから抽出したキーフレーズと比較を行います。 まだ始まったばかりのプロダクトなので、キーフレーズ抽出や対話ストーリーの生成など、詳しい方が居ましたらぜひご意見を頂きたいです
2.2 単語の分散表現および音素列の類似性を考慮した単語アラインメントに基づく教師なしEntity Linking
Entity Linking とは、テキスト中の固有表現を知識ベース上のEntity(地名,店舗名,商品名,etc.)に紐付けるタスクであり、音声自動応答サービスのAI Messenger Voicebotにおいても重要なタスクとなっています。 しかし、音声対話システム上での Entity Linking は、表記ゆれや略称など多様なEntityや発話のパターン、さらに音声認識誤りにも対処しなければなりません。
そこで本研究では、多様なパターンのユーザ発話やEntityを考慮した、音声認識誤りに頑健な教師なしEntity Linking手法を提案しました。 提案手法は、単語の分散表現と音素列を利用してアラインメントをとることで、意味的類似性と音韻的類似性の両方を考慮して音声認識テキストとEntity間の類似度を計算しています。 手法の有効性を検証するため、AI Messenger Voicebotの対話ログデータを使用し、テキスト間類似度を測る手法(レーベンシュタイン距離,WMD,WRD,Lazy-EMD)との間で比較実験を行いました。 実験の結果、提案手法は従来手法よりも高い性能を示し、多様なパターンのユーザ発話やEntityを考慮できることがわかりました。
当日は、「音声」と「意味」の類似性をどのように考慮すればいいのか、という点を中心に議論できればと思います。
2.3 事前学習モデルを用いた音声認識結果からの固有表現抽出
電話での音声自動応答サービスであるAI Messenger Voicebotは、その対話の中で特定のキーワード(ex. 地名、人名、etc.)をヒアリングするケースがあります。 音声認識の精度は近年著しく向上していますが、電話というチャネルの特性上、音質の問題や周囲の騒音が入るケースが多いなどもありその認識には誤りが含まれる可能性があります。 また、音声入力ではテキスト入力に比べてユーザーの発話が曖昧であったり、長文になりやすいといった多様性を持つという難しさもあります。 そのような状況で正しくヒアリングを行えることを目的として、東京都立大学小町研究室と共同研究に取り組んでおり、その研究内容について発表します。
本発表ではユーザーの発話を音声認識した結果から、BERTやT5といった大規模言語モデルを用いてヒアリング項目の区間を推定した結果とその分析内容について報告します。 SLP(Spoken Language Processing)に取り組んでいる方や、プロダクトのデータでの自然言語処理、特に固有表現抽出やEntity Linkingに興味のある方はぜひお越しください。
2.4 クラウドソーシングに基づく日本語タスク指向型対話収集基盤の構築に向けて
"クリニック予約をする", "航空券の予約", "レストラン検索"など特定のタスクを達成することを目的にした対話をタスク指向型対話と言います。実務におけるタスク指向型対話においてはデータセットの構築、新規ドメインへの適用が課題になります。それらの課題を解決するために、東北大学乾研究室と共同研究に取り組んでおり、その内容について発表します。
本発表では、日本語タスク指向型対話のデータセット構築をクラウドソーシングで収集することを目指して、社内でデモンストレーションを行い、課題点や改善点について報告します。発表を行うJED2022は日本語データセット構築に関するワークショップなので、同じような課題感を持った方や、すでに多くの知見を持っている方々からぜひご意見いただきたいです。
3. おわりに
AI Shift以外にもCyberAgentグループから3件発表があったり、スポンサーブースも出させていただいているため、そちらの発表もぜひお越しください。
当日皆様と活発な議論ができることを楽しみにしております。