言語処理学会第31回年次大会(NLP2025) でAI Shiftから4件の発表を行います

こんにちはAI Shiftの栗原です。3月10日(月)から3月14日(金)に出島メッセ長崎言語処理学会年次大会(NLP2025)が実施されます。AI Shiftからは口頭発表1件とポスター発表3件の合計4件の発表を行います。(口頭発表1件、ポスター発表1件は東北大NLPグループとの共同研究。)栗原の発表については、社内のゼミ制度による組織横断活動の成果発表になります。

本記事では各発表の概要と、議論したいポイントについて取り上げたいと思います。(AI Shift メンバー関与分のみ記載)

1. AI Shiftからの発表

ポスター発表3月11日 (火) 10:20-11:50Q2-17JHARS: RAG設定における日本語Hallucination評価ベンチマークの構築と分析亀井 遼平, 坂田 将樹 (東北大), 邊土名 朝飛 (サイバーエージェント/AI Shift), 栗原 健太郎 (AI Shift/サイバーエージェント), 乾 健太郎 (MBZUAI/東北大/理研)
3/12 (水) 8:30 ~ 10:00P5-15タスク指向音声対話における大規模言語モデルを活用した柔軟な発話終了検知の検討大竹 真太, 東 佑樹, 杉山 雅和 (AI Shift)
3月13日(木) 10:20-11:50P9-19TEPPAY: ゲームのプレイ動画を入力とする実況AI Tuberシステムの提案栗原健太郎 (AI Shift, サイバーエージェント), 吉野哲平, 高市暁広, 岩田伸治 (サイバーエージェント), 長澤春希 (AI Shift), 佐藤志貴, 岩崎祐貴 (サイバーエージェント)
口頭発表3月11日 (火) 14:50-16:20D4-2多面的なユーザ意欲を考慮したセールス対話データセットおよび対話システムの構築と評価邊土名 朝飛, 馬場 惇, 佐藤 志貴 (サイバーエージェント), 赤間 怜奈 (東北大)

2. 各発表の概要と議論したいポイント

ポスター発表

2.1 JHARS: RAG設定における日本語Hallucination評価ベンチマークの構築と分析

概要

JHARS_img 本研究では、日本語RAG設定におけるhallucination評価ベンチマークJHARSを構築した。3種類のLLMで実験を行った結果、(1) hallucinationの発生率は低い、(2) 事実確認が必要なhallucinationが発生しやすい、(3) GPT-4oは高い再現率でhallucinationを検出できることが示唆された。

議論したいポイント

  • アノテーションのフローに関する議論
  • 適切なドキュメントを取得できている状況下におけるHallucinationの少なさに関する議論
  • Hallucination検出モデル構築の方法に関する議論
  • スパン単位でのよりきめ細かいアノテーションの議論
  • LLMを用いたアノテーション補助の方法論について

2.2 タスク指向音声対話における大規模言語モデルを活用した柔軟な発話終了検知の検討

概要

detection_method_img 本研究ではタスク指向対話において, 大規模言語モデル(LLM)の文脈理解能力を活用することで, 柔軟かつ高速な発話終了検知を実現する新しい手法を提案する. 社内で収集した電話音声データを用いて検知の遅延時間を評価し, ベースラインよりも約 37.8%短縮できた.

議論したいポイント

  • 発話終了検知の誤検知を減らす方法について
  • タスク指向対話における発話終了検知の評価指標について

2.3 TEPPAY: ゲームのプレイ動画を入力とする実況AI Tuberシステムの提案

概要

teppay_img VTuberなどの実況配信への関心が高まる一方で、準備の複雑さや配信内容への不安が参入障壁を高くしている。本研究では、LLMを活用した実況配信システム「TEPPAY」を提案する。TEPPAYは発話生成など7つのモジュールで構成され、配信に必要な最低限の性能を担保しているが、魅力的な実況動画作成には課題が残ることを確認した。

議論したいポイント

  • 各種モジュールに用いているツールの性能の妥当性・および他ツールの検討
  • TEPPAYのより良い構成の検討(etc Semantic Classifierは必要か、Avatarによる配信の振る舞いの実現方法 etc)
口頭発表

2.4 多面的なユーザ意欲を考慮したセールス対話データセットおよび対話システムの構築と評価

概要

sales_dialog_img 本研究では、購買意欲を向上させるセールス対話システムの実現に向け、多面的なユーザの意欲を考慮した日本語セールス対話データセットを構築した。LLMと本データセットを用いたユーザ評価実験では、発話レベルでユーザの意欲を考慮し、分析から得られたセールス対話戦略の知見を組み込むことがユーザの購買意欲向上につながることが示唆された。

議論したいポイント

  • ユーザの購買意欲をより効果的に向上させるには、どのようなデータや対話戦略が必要か
  • 現状のセールス対話データセットを拡張・再構築する場合、どのようなデータや観点を追加するとより価値が高まりそうか

3. おわりに

今年もAI Shiftの他に,CyberAgentグループから多数の発表とスポンサーブースの出展があります。そちらの発表もぜひお越しください! 栗原個人としては昨年の神戸に引き続き、長崎も人生初上陸ですので、すでに非常に楽しみです。 ぜひ会場で研究に関する議論、雑談などできればと思います!よろしくお願いします!

PICK UP

TAG