2022年度人工知能学会全国大会で発表します

こんにちは,AIチームの邊土名です.

6月14日(火)〜6月17日(金)の期間で2022年度人工知能学会全国大会が開催され,AI Shiftからは1件の発表(ポスター)を行います.

本記事では発表の概要を紹介します.発表をお聞きになる際の参考になれば幸いです.

[4Yin2-55] ユーザ発話とEntityの音声類似度を考慮したEntity Linking手法の検討

〇邊土名 朝飛,戸田 隆道,友松 祐太,杉山 雅和,東 佑樹,下山 翔(AI Shift)

6月17日(金) 12:00 〜 13:40 Y会場

Entity Linking とは,テキスト中の固有表現を知識ベース上のEntity(地名,店舗名,商品名,etc.)に紐付けるタスクであり,音声自動応答サービスのAI Messenger Voicebotにおいても重要なタスクとなっています.

ここで問題となってくるのが"音声認識誤り"です.音声認識誤りを含むテキスト間で類似度を計算する際,表層的もしくは意味的な類似度を単純に求めるだけでは適切にLinkingすることはできません."豊洲"の音声認識誤り結果である「おやす」と「豊洲」は当然全く異なるテキストとして扱われるでしょう.

そこで本研究では,音声の類似度に着目し,音声特徴に基づいた類似度計算手法の比較検証を行いました.
評価実験では,Automatic Speech Recognition(ASR)結果を使用する音素列ベースの手法(編集距離,セミグローバルアラインメント,N-gram+TF-IDF)と,ASRを使用しない,すなわち音声データを直接利用する手法(メルスペクトログラム,wav2vec 2.0)との間で比較実験を行いました.
自社で運用している自動音声対話サービスの対話ログデータを使用して実験した結果,音素列を用いる手法の方がフィラーや無音区間の影響を受けにくく,音声データを直接利用する手法と比べて高いEntity Linking性能を示しました.また,音素列ベースの手法の中でも,N-gram+TF-IDFが最も高い性能を示しました.

当日は,Entity LinkingやNERに有用な,より良い音声特徴について議論できればと思います.

おわりに

今年の人工知能学会はハイブリッド開催ということで,私も現地でポスター発表を行う予定です.少しでも興味をお持ちになった方はぜひ会場に来ていただき,様々な議論ができればと思います.京都で皆様とお会いできるのを楽しみにしております!

最後までお読みいただきありがとうございました!

PICK UP

TAG