こんにちは。AIチームの東です。
本記事では、2023年9月26日(火)~28日(木)で行われた日本音響学会第150回(2023年秋季)研究発表会の参加報告をさせていただきます。
企画、セッション
日本音響学会は年に2回研究発表会を開催しており、今回はオフライン形式で行われました。秋季研究会は毎年様々な地方で開催されるようで、去年は北海道、今年は名古屋での開催となりました(来年は大阪で開催予定とのことです)。
今年は名古屋工業大学での開催となりました。名古屋工業大学は普段産学連携させていただいている李研究室もあり、勝手ながら身近に感じられる会場でした。
当日の企画・セッションは以下の形式でした。
- 一般講演(口頭発表) :338件(全11会場)
- 招待講演:32件
- ポスターセッション:240件
- 特別講演:1件
- 関連イベント: 3件
- 特別企画(前日企画):1件
開催された企画・セッションの中からいくつか抜粋してご紹介いたします。
日本音響学会 東海支部50周年記念式典
今年は日本音響学会東海支部が創設50周年を迎えるということで、発表会前日(9/25)に記念式典・懇親会が開催されました。
式典では日本音響学会会長や歴代の支部長からの挨拶に加え、Google DeepMindの全さんによる基調講演、パネルディスカッション、ポスター・デモセッション、ナイトセッション(懇親会)がありました。
基調講演やパネルディスカッションでは第一線でご活躍されている方々によるご自身の経験談やキャリアに対するアドバイスなど、学生や若手研究者にとって非常に参考になる話をお聞きできました。
(基調講演の資料は東海支部のHPに掲載されている他、パネルディスカッションの要約は日本音響学会学生・若手フォーラムの記事に記載がありますので、ご興味ある方はそちらをご参照ください)
口頭発表・ポスターセッション
今回の研究発表会では口頭発表・招待講演・ポスターセッション合わせて約600件の発表がありました。音響・音声処理に関わる研究者が一堂に会するということで、かなりの件数があり界隈の盛り上がりを非常に感じました。複数の会場で並行して発表があり、とても回り切ることはできませんでしたが、著名な研究者の発表も多く非常にレベルの高い発表会であると感じました。
また、弊社の親会社であるサイバーエージェントからも2件の発表を行いました。
以下、聴講させていただいた中で弊社のプロダクトと関連する研究をいくつか紹介させていただきます。
[1-9-5] An investigation on constructing Multi-look-ahead Contextual Block Streaming Transducer
〇Zhao Huaibo,Fujie Shinya,Ogawa Tetsuji,Kobayashi Tetsunori(早大)
こちらは高精度かつ低遅延のストリーミング音声認識システムのについての研究です。
高精度なストリーミング音声認識のためには認識したい部分に加え数フレーム先の音響特徴を入力に入れることが有効とされているそうですが、未来の情報を使うため必然的に出力に遅延が発生してしまいます。その遅延を緩和させるための工夫が紹介されていました。
発表では音声対話システムとして柔軟な対話応対を実現するためには認識精度もさることながら大意を素早く読み取ることも重要だというお話もされており(記憶違いであればすみません)、弊社の電話応対サービスが抱える課題と非常にモチベーションが近い研究だと感じました。弊社のサービスでも認識精度と応答速度のトレードオフが課題になっており、今後参考にさせていただきたければと思います。
[2-9-6] End-to-End 音声要約のための転移学習に基づく外部言語モデルの活用
◎松浦 孝平,芦原 孝典,森谷 崇史,田中 智大,叶 高朋,小川 厚徳,デルクロア マーク(NTT)
こちらは英語を対象にしたEnd-to-End音声要約についての研究です。
近年音声認識結果のテキストを要約モデルにかけるCascade型のシステムとは別にEnd-to-End型のモデルが提案されており、音声認識時の認識誤りの影響の低減が期待できます。この研究では音声要約モデルの初期値に外部言語モデルを効果的に利用する手法を提案しており、非常に参考になりました。先日プレスリリースのあったAI Messenger Summaryでもオペレーターの有人対応要約というタスクに取り組んでおり、こちらの分野は引き続き注視していきたいと思います。
[2-Q-6] Neural Transducerを用いた目的話者音声認識システムの検討
〇森谷 崇史,佐藤 宏,落合 翼,デルクロア マーク(NTT)
こちらは複数話者が混合した音声から目的話者の音声のみを認識するという研究です。
このようなタスクの場合目的話者の音声を抽出するモデルを前段に挟んで音声認識を行う構成が主流ですが、計算量の増加とシステム全体の遅延が問題となります。この研究ではRNN-TransducerのEncoderに目的話者の音声を強調するような埋め込み表現を掛け合わせることで推論速度を落とさずにCascade型のシステムと同程度の認識精度を達成しています。
弊社の電話応対サービスでは頻発する問題ではありませんが、メインの話者以外の音声(テレビ番組の音声など)が入り込むとユーザ側の音声の終端(話し終わり)予測が難しくなることはこちらでも確認しており、今後の参考にさせていただきたいと思いました。
おわりに
前回参加した2023年3月の音響学会に引き続き、持ち帰るものが多い発表会になりました。また、懇親会や休憩時間での研究者との交流や議論など、サーベイでは得られないような生の情報を得られるのはオフラインの学会ならではの良さだと改めて感じました。
このような貴重な機会を作ってくださった運営や参加者の皆様に感謝いたします。今後も継続的に発表や参加をしていければと思います。
最後までお読みいただきありがとうございました。