第36回 人工知能学会全国大会 参加報告

こんにちは。

AIチームの邊土名、東、二宮です。

2022年6月14日(火)~17日(金)の4日間にかけて、第36回人工知能学会がオンラインとオフラインのハイブリッド形式で開催されました。

現地会場の国立京都国際会館

AI Shiftからは邊土名がポスター発表を1件行いました。今回はその発表報告と、聴講した発表の中からいくつか抜粋して紹介できればと思います。

発表報告(邊土名)

ユーザ発話とEntityの音声類似度を考慮したEntity Linking手法の検討

詳細な発表内容はこちらの記事をご覧ください。

今年度の人工知能学会のインタラクティブセッション(ポスター発表)はオフライン実施でしたので、私(邊土名)も京都の現地会場に赴いて発表しました。久々のオフライン発表だったこともあり、いつも以上に活発な議論ができた気がします。

ポスター会場の様子

発表には多くの方々に来ていただき、質問、コメントも多数いただきました。いただいた質問とその回答を、一部抜粋して紹介したいと思います。
さまざまな観点からの質問をいただきましたが、最も性能が高かったN-gram+TF-IDFに関するものが特に多かったです。

  • 音素bi-gram、tri-gram、4-gram…の全てのパターンを語彙に含めているのか。もしそうであれば語彙数がかなり多くなるので、TF-IDFベクトルの次元数もかなり大きなものになるのでは
    • 回答:全て語彙に含めている。そのため、実験では語彙数が2万超となっており、TF-IDFベクトルの次元数もかなり大きくなってしまっている。ただし、実験結果の性能は良好であるため、実用上問題はないと思われる
  • 音素N-gramのNの範囲を[2,10]としているが、この幅はどのようにして決めたのか
    • 回答:下限を2としたのは、日本語の音節が「子音+母音」の2音素を基本としているため。上限を10としたのは、語彙数が3万未満になるかつキリのいい値であるため
  • N-gram+TF-IDFでも失敗したケースはどのような発話だったのか
    • 回答:Entity辞書には含まれていないフレーズ(同義語辞書には登録れている)を発話しているもの、途中で言い直すなどして1発話中に複数のEntityが含まれてしまっているものが主だった
  • 紐付け対象となるEntityの数はどのくらいの規模を想定しているのか
    • 回答:通常は数百件程度、かなり多めに見積もって数千件を想定している
  • 発話区間検出を行えばMel Spectrogramやwav2vec 2.0の性能は向上するのではないか
    • 回答:向上すると思われる。無音区間やフィラーを含まない合成音声で実験した際には、wav2vec 2.0を音声特徴量として用いた手法は音素ベースの手法に匹敵する性能を示していた
  • Mel Spectrogramの性能が低すぎるのでは。何が原因だと考えられるか
    • 回答:類似度計算に仕様したTriplet Netモデルの表現能力が低かったことが要因として考えられる
  • N-gram+TF-IDFは名前の認識やFAQ検索にも適用できるか
    • 回答:名前のパターンは非常に多様でありEntity辞書を構築することが難しいため適用は難しい。FAQ検索の場合は適用できる可能性はあるが、意味的な類似度も考慮する必要があると思われる

参加報告(東、二宮)

今年度の人工知能学会は、東と二宮は全日程オンラインで参加しました。全4日間ということもあり、人工知能に関わるあらゆる分野の研究発表が一堂に会する機会となりました。
非常に興味深い発表が多い学会でしたが、その中から弊社のプロダクトが抱えている課題に近い研究や、将来的に活用ができそうな発表について、いくつか勝手ながら紹介させていただきます。

聴講した発表の紹介(東)

学習済み埋め込み空間の線型部分空間を用いた集合演算

こちらは単語埋め込み空間における単語集合の計算を量子論理を使うことで表現した研究です。単語集合を単語ベクトルの張る線形部分空間で表現し、単語の帰属度合いは部分空間との「なす角」の近さで定義しています。さらにその帰属度をもとに集合間の類似度を単語埋め込み上の計算に拡張しているそうです。
埋め込み空間上での単語表現を集合として計算する手法は個人的にあまり見かけたことがなく、興味深い発表内容でした。今後単語集合の性質や表現力についての知見が多く集まるとプロダクトへの応用にも繋げられそうだと感じました。

高齢者見守り声掛けロボットのシナリオベース対話中のユーザ発話終了予測に基づく話者交替タイミングの決定

こちらは在宅高齢者のための見守り声掛けロボットのための、ユーザーの発話終了タイミングを予測する研究です。ロボットの発話内容はあらかじめ定義した上で、検出した無音区間と声かけ内容を用いて次のロボット発話のタイミングを決定しています。実験ではロボットの発話に人間が合わせようとする傾向もあり、今後はロボットとの相互作用を考慮した研究や声かけシナリオの個人適合を検討を予定しているそうです。
ユーザの発話内容を使用せずに対話を行う、という点が弊社のプロダクトとは異なりますが、適切なタイミングでの話者交代に対する課題感は弊社と共通していると感じました。個人的にはシナリオの個人適合をどのように行うのかが気になっています。今後の研究に注目していきたいです。

微分可能な自動データ拡張を用いたラベルなしテストデータセットの評価

こちらはラベルなしデータに対するモデルの性能を予測する研究です。ソースのデータセットを拡張したメタセットの認識性能を計測し、それらを予測する回帰モデルを学習させ、未知のテストデータに対するモデルの性能を予測させます。また、メタセットをテストデータに近い距離にするために、回転や明るさなどの画像変換に加え、背景の変更を微分可能なものに拡張しているのも研究のポイントのようです。
社内で蓄積されているデータは基本的にはラベルがついていないため、ラベルなしのデータの評価手法ということで、興味深く聴講させていただきました。社内データの一部はラベル付けをした上でモデルの学習に使用、精度の検証を行っております(第12回対話システムシンポジウム日本音響学会2022年春季研究発表会)が、社内データの活用法について今後も様々な方向で検討していきたいと思います。

聴講した発表の紹介(二宮)

今回初めて人工知能学会に参加させていただきました。幅広い内容の研究を拝見することができて勉強になりました。以下、聴講させていただいた中で弊社のプロダクトと関連する研究をいくつか紹介させていただきます。

ニューラル生成文に含まれる事実不整合の検出と修正

BARTやTransformerをはじめとした既存のテキスト生成モデルは事実とは異なる内容を生成してしまう可能性があるため、その検出と修正を行うことを目的とした研究です。BERTを検出モデルに、Transformerを修正モデルに用いていて、旅行代理店における対話のデータセットを用いて実験されています。一般的に、テキスト生成モデルは事実と異なる内容を生成してしまう可能性があるので、アプリケーションへの導入が難しい状況が考えられます。そこで今回のような検出モデルを導入することで、事実検証(またはその補助)を効率的に行うことが期待できます。本研究のように、より多様で人間らしい表現を顧客に届けられるようなシステムを今後も検討していきたいです。

業務記録に対する備忘録テキスト検索システム開発と改良

企業内で蓄積されたテキストデータを活用することで現場の作業をサポートすることを目的として開発された検索システムに関する研究です。Triplet lossを用いて学習させたSentence-BERTでテキストのエンコードを行っています。昨今のQ&Aに関する研究では、ユーザ発話に対して、用意しておいた質問(Q)との類似度だけでなく、答え(A)との類似度も考慮した検索手法が提案されています。その点、本研究で用いられているデータでは、検索された備忘録に業務フローと整備に関する詳細なデータが付随しているため、それらも検索に活用できる可能性があります。これまで企業内で利用されなかったデータを活用してこのようなシステムを作り上げた点に感銘を受けました。また、本研究でも今後の課題として挙げられていた、単語・略称・同義文章への対応は、ビジネス応用を考えた場合にも非常に重要かつ大変な課題なので、今後の研究に注目したいと思います。

タスク指向型対話システムにおけるチュートリアルを用いた発話理解の改善

対話の冒頭でチュートリアルを行い、システムの理解できる内容をユーザに伝達することで、発話理解精度の向上を目指す研究です。チュートリアルでは、ユーザ発話に対してシステムが認識できた内容を出力します。これにより、ユーザはシステムがどこまで理解できるかを認識することができ、システムにとって理解しやすい発話を心がけるようになります。システムとユーザが協力してタスクを解決する問題において、ユーザの発言をシステムに合ったものに変更させるというアプローチが非常に面白かったです。弊社のコールセンターにおける自動応答システムにおいても、ユーザの最初の発話がシステムに正しく理解されないと電話を切ってしまうことが多く、同様の課題を感じているところです。この点、チュートリアルの導入は1つの解決策と考えられます。タスク完了時間が長くなるという課題はあるものの、ユーザがシステムの初心者か経験者かを分類し、初心者に対してのみチュートリアルを実施するといった対策が考えられます。タスク指向型対話システムにおける一種の対話戦略として参考にさせていただきました。

おわりに

今回はAI Shiftからの発表の紹介と、聴講した発表のいくつかを紹介させていただきました。人工知能に関する幅広い内容の研究を知ることができ、大きな学びとなりました。

また、今回はオンラインとオフラインのハイブリッド形式の開催だったのにも関わらず、発表や質疑などの段取りもとてもスムーズでした。改めて運営の皆様に感謝を申し上げます。

来年の第37回人工知能学会全国大会は、6月13日~6月16日に熊本での開催となっており、待ち遠しく感じております。

最後までお読みいただきありがとうございました。

PICK UP

TAG