NLP若手の会 第18回シンポジウム (YANS2023) でAI Shiftから2件の発表を行います

こんにちは。 AI Shift の邊土名です。
2023年8月30日(水)〜31日(木)の2日間、NLP若手の会 第18回シンポジウム (YANS2023)浅草橋ヒューリックホールで開催されます。
YANS2023では、AI Shift から2件の発表を行います。

本記事では、発表の概要と議論したいポイントについて取り上げます。

発表情報

[S3-P08] カスタマーサポートにおけるLLM-basedタスク指向対話システムの構築と評価の検討

著者

二宮大空 (AI Shift), 戸田隆道 (AI Shift), 下山翔 (AI Shift), 友松祐太 (AI Shift)

日時

8月30日(水) 17:50-18:50

概要

カスタマーサポート業務はサービスの仕様を回答したり、予約などの手続きを行ったりと多様でコストが高い。そこで、検索・予約・解約をこなすタスク指向対話システムを、OpenAIが開発するLLMやFunction Callingを用いて構築した。しかし、LLMベースの対話システムの評価は非常に難しく人手評価もコストが高い。そこで、ユーザー役としてLLMを用いて対話事例を生成することで、対話システムの評価とプロンプトエンジニアリングに活用する方法を紹介する。

対話システムとユーザ役LLM(GPT-4)間で最大4対話行い、その対話を評価用LLM(GPT-4)で自動評価。自動評価結果と人手評価との間で相関を測ることで妥当性を検証する。

議論したいポイント

  • シナリオは適用先ごとに評価しなければならないため、汎用的な評価フローを整えたい→あくまで事業上の意思決定に利用したい
  • Function Callingを行わなければならないタスクの種類はどのように分けられるか(タスク系"予約したい" / DB参照系"東京駅から近い店舗を教えて" / 状況確認系"アカウント調べて")
  • 事業上、"ボットがその発言を行って問題がないか"を確認したいが評価指標が多すぎる(嘘をついていないか、競合に関する発言を行っていないか)
  • 今回の方法は事例を生み出すことで、出力のチェックが簡単にできるという良さもある。
  • 今後はユーザー役LLMに多様なペルソナを与えることで、頑健な応答が可能かの実験も行いたい。

[S2-P01] 日本語LLMベンチマーク構築に向けて

著者

栗原健太郎 (AI Shift), 佐々木翔大 (サイバーエージェント), 張培楠 (サイバーエージェント), 石上亮介 (サイバーエージェント), 三田雅人 (サイバーエージェント), 加藤明彦 (サイバーエージェント)

日時

8月30日(水) 14:00-15:00

概要

大規模言語モデル(LLM)の研究開発や事業応用が加速してきている。LLMを事業応用していく上では留意するべき点が多様に存在する。一方で、LLMの評価に関する研究事例は存在するものの、事業応用における留意点に着目した評価への取り組みは現状薄い。本研究では、事業におけるLLM適用時の課題に即したベンチマーク構築を目指す。

LLM出力に(1)参照元に存在せず、事実にも反する生成結果、もしくは(2)事実だが参照元に存在しない生成結果が含まれていないか評価

議論したいポイント

  • 事業におけるLLMのユースケース
  • 事業においてLLMを使用する上で気にするポイント
  • LLMを用いた生成結果の評価に対する所感
  • Hallucinationという課題に対するアプローチについて

おわりに

AI Shift以外にも、CyberAgentグループから招待講演を含む5件の発表を予定しています。
他にも、パネルディスカッションへの登壇、スポンサーブースの設置、本シンポジウム内の企画であるラウンドテーブルでの交流もありますので、ご興味のある方はぜひお越しください。
NLP若手の会(YANS)にてダイヤモンドスポンサーを務めます | 株式会社サイバーエージェント

当日は皆様と活発な議論、交流ができることを楽しみにしております!

PICK UP

TAG