はじめに
こんにちは。AIチームの栗原健太郎です。
今年度開催の2024年9月4日(水)〜2024年9月6日(金)に梅田スカイビルで行われた第19回YANSシンポジウム (YANS2024) にAIチームから自分を含む4名 (栗原, 長澤, 大竹, 邊土名) が聴講参加しました (邊土名は本所属AI Lab)。
また、僕自身は今年度よりYANS委員として、微力ながら本シンポジウムの運営業務にも参画しておりました。
昨年での東京開催に続きオフラインでの開催となった今回のYANS2024は、参加者数・発表者数共に過去最多人数であったということで、NLP分野への関心がより高まっていることを実感させられるシンポジウムでした。会場の熱気も高く、終始参加者間の議論が絶えない賑やかな空間でした!
本記事では、数多くの発表が行われた今回のYANSの中から聴講参加した我々4名が特に興味を魅かれた研究発表をピックアップする形で、参加報告をさせていただきます。
以降の内容に関しましては、全て著者の方に掲載許諾を頂いた内容になります。
研究発表の紹介
選んだ論文(栗原)
[S4-P39] 応答候補の多様性を用いた参照応答集合の評価に向けて
佐藤 魁 (東北大), 吉野 幸一郎 (東工大/理研), 河野 誠也 (理研/NAIST), 赤間 怜奈 (東北大/理研)
研究の概要
雑談対話システムの性能を適切に評価するための第一歩として、ある文脈に対する応答候補の大きさに注目する研究です。本研究では、応答の候補が多様であるほど、応答候補の適切さを評価するための参照応答の大きさもまた大きくなるという仮説を検証するためのロードマップを示しております。さらに、実験では、既存の対話データセットを人手アノテーションによって適切な応答評価ができている事例とそうでない事例とで分類した上で、それぞれの事例に対する言語モデルの応答の多様性を比較した上で、今後の研究の指針を示しておりました。
気になった理由
雑談対話システムの評価が一般的に難しいとされている中で、応答の候補の多様さを可視化するという試みが斬新であると感じました。参照応答の大きさを考慮することで応答候補を可視化しその大きさを予測する糸口になるという示唆は、雑談システムによらずある発話や文脈に対する応答の妥当性を評価する上で参考になるものでした。長期的な目線で「弊社のボイスボットで将来的にLLMによる自由度の高い対話を実現させることができたら」という世界観を考える上での重要な研究になりうると考え、選択しました!
選んだ論文(長澤)
[S4-P04] LLMの"衝突回避" : LLMと制御理論の融合
宮岡 佑弥 (慶應大), 井上 正樹 (慶應大)
研究の概要
こちらは慶應大の宮岡さんの研究で、LLM のアライメントに対し制御理論の観点からのアプローチを提案されているものになります。
制御理論では、障害物への衝突回避のための理論が数多く提唱されているという背景があります。このアナロジーとして、LLMアライメントを「不適切なテキストという障害物への衝突回避」と捉えた研究内容になっております。
具体的には、RLHFなどの再学習を必要とせず、LLMの出力に介入するアドオン型の制御ロジックを導入することでアライメントを行うものになっています。
結果として、不適切なトークン出力を抑制できることが報告されています。
気になった理由
AI Shift やその親会社のサイバーエージェントでは、LLM を組み込んだプロダクトをユーザーさんに提供する際に、どう出力を制御するかを日々議論しています。
この研究は着想がとてもユニークであることもさることながら、再学習を必要とせずに LLM の振る舞いを制御するという取り組み内容が非常に興味深く感じられました。
発表の中では、衝突回避の弊害として「ニュアンスの乖離」が挙げられていましたが、この辺りの今後の取り組みも含め、引き続き注目に値する研究だと感じました。
選んだ論文(大竹)
[IV-P02] 人間らしい対話とは:非言語情報生成のための基盤モデル
井上 昂治 氏(京都大学)
研究の概要
人間同士の対話では、相槌・フィラーといった非言語的な情報が頻繁に利用されます。この非言語情報が人間らしい対話において重要であるという背景のもと、リアルタイムで自然な対話を実現するための研究が行われています。具体的には、2話者から成るマルチチャネルの音声を入力として受け取り、CNNベースの音声特徴量エンコーダとTransformerを用いて、現在および未来の音声活動を予測します。これにより、1対1の会話において、ターン終了予測や自然なタイミングでの相槌やフィラーの出力が可能となります。研究のゴールとして、対話破綻のないロボットの対話の実現が目指されています。
気になった理由
弊社AI Shiftでは、AI自動音声対話システム「AI Messenger Voicebot」を開発・運用しています。このVoicebotにおいても、柔軟な対話を実現するための自然なターンテイキングが重要な課題となっています。そのため、本研究は弊社にとって非常に有用な示唆を与えてくれると考えています。また、発話の割り込みに対応できたり、マルチリンガルにも対応できるとのことだったので非常にこの分野の発展に期待しています。プロダクトへの応用可能性を考慮すると、この分野の研究は引き続き注目すべきだと考えています。
選んだ論文(邊土名)
[S3-P24] チェックリストを利用した生成系タスクの網羅的評価
古橋 萌々香 (東北大/NII), 中山 功太 (NII), 児玉 貴志 (NII), 菅原 朔 (NII), 関根 聡 (NII/理研), 宮尾 祐介 (東大/NII)
研究の概要
近年、生成系タスクの自動評価においてLLMが利用されてきていますが、適切な指示方法や評価基準は未だ確立されていません。
そこで、この研究では、生成系タスクの自動評価を改善するために12種類の評価指標と54項目のチェックリストを提案しています。
この評価指標とチェックリスト自体もLLMを用いて生成されており、その内容を人手で確認、修正したものを採用しているとのことでした。
Ichikara-instructionデータセットと作成したチェックリストを用いた評価実験では、以下の結果が示されていました。
- チェックリストとオープンLLMを用いた自動評価と人手評価との一致率は約60%
- 評価指標によっては評価が揺れる傾向にある項目もあることを確認
気になった理由
AI Shiftやその親会社であるサイバーエージェントでは、様々な研究やプロダクトでLLMを活用していますが、"LLMの生成結果をどのように評価すればよいか"は未だに課題となっています。
この研究では、性能評価指標のリストアップと評価をLLMを用いて行う手法を提案しており、様々なタスクの評価に対応できるフレームワークになる可能性を感じました。
AI ShiftのRAGプロダクトの生成結果の評価や、サイバーエージェントで行なっている広告生成のようなクリエイティブなテキスト生成の評価にも適用できそうな手法で、学術的な価値だけでなく実務的にも有用な研究だと感じました。
ちなみに、こちらの研究はYANSスポンサー賞であるサイバーエージェント賞に選定させていただきました。
最後に
今回もLLMをメインテーマに据えた研究が多いと感じる一方で、取り扱う評価の幅やモダリティは拡大の一途を辿っているとも感じられるシンポジウムでした。今回記事では取り上げられなかった画像領域や、弊社で常に関心を寄せる音声領域にまたがる研究がますます増えていることから、LLMがこれらの領域の研究をより加速させたことを実感しました。
チャットボット・ボイスボットの開発に加え、生成AIコンサル事業を展開する弊社としてより、幅広くアンテナを張っていく必要性を再度強く感じました。
今回、このような良い刺激をもらえる素敵なシンポジウムを企画・運営してくださった委員の皆様、本当にありがとうございました(自分も委員ではありましたが笑)。
私事ではありますが、来年度のYANSでも委員を務めさせていただく予定ですので、運営として、また一参加者として来年も楽しめたら良いなと思っております!