こんにちは。AIチームの東です。
9/14(水)~9/16(金)に日本音響学会の秋季研究発表が開催され、AI Shiftからは東が参加させていただきました。
オフライン開催
今年の音響学会は2020年春の研究発表会以来およそ2年半ぶりの対面での開催となりました。
個人的にはAI Shiftに入社(2021年)して以来初めての対面での学会であり、オンライン開催とは異なる会場の熱量や雰囲気などを十分に感じられる貴重な機会となりました。
会場の雰囲気
今回の音響学会は北海道科学大学で開催されました。3日目は曇り空となりましたが、概ね天気に恵まれ、心地よく過ごせました。
前日の特別企画は会場での発表とYouTube Liveでの配信のハイブリッド開催でしたが、その後の3日間は招待講演、口頭発表、ポスター発表にて音響、音声処理に関わる様々な分野の発表が全て対面で行われました。
今回は約90セッション、最大で9つの会場で同時に発表が行われており、9つの研究分野が一堂に会する研究会の規模の大きさを感じました。
私が参加した限りではどの会場も非常に多くの参加者が活発な議論に参加しており、一参加者として有意義な時間を過ごせました。
研究の動向
非常に幅広い分野の発表があり、全てを見て回ることは到底できませんでしたが、聴講した中では音声技術を用いた言語教育や障がい者支援などの応用や、非言語情報を扱って多様な音声表現を認識/合成する研究が印象的でした。
音声認識の分野では中間層の情報を使ってCTC損失を計算する手法を用いるなどモデルの構造の工夫[1, 2]や、非言語的な音声(フィラーや言い淀みなど)に適切なラベル付けをするなど学習データの工夫[3]をする研究がいくつか見受けられました。
音響的な特徴の分析をした研究では第二言語学習者の留学による発音の変化[4]や高齢者にとって聞き取りやすい音声の傾向[5]など、興味深い発表も多くありました。
おわりに
前回参加した2022年3月の音響学会に引き続き、大変多くの学びを得られる機会となりました。
また、今回の学会を通して対面で初めてお会いする方もいらっしゃり、有意義な交流の場にもなりました。
このような機会を作ってくださった運営の皆様のご尽力に感謝いたします。今後も継続的に発表や参加をしていければと思います。
最後までお読みいただきありがとうございました。
参考文献
[1] 市村 収太,中込 優,藤田 雄介,小松 達也,木田 祐介(LINE)
CTCベース音声認識モデルにおける中間層ロスと条件付けが与える影響の考察
[2] 小松 達也,藤田 雄介(LINE),Lee Jaesong,Lee Lukas(NAVER),渡部 晋治(CMU),木田 祐介(LINE)
中間層予測にビームサーチを用いた新しいCTC推論
[3] 堀井 こはる(豊橋技科大),福田 芽衣子(徳島大),太田 健吾(阿南高専),西村 良太(徳島大),小川 厚徳(NTT),北岡 教英(豊橋技科大)
End-to-End非流暢整形音声認識システムの対話音声による評価
[4] 粕谷 麻里乃(東邦音大・音楽),荒井 隆行(上智大・理工)
日本人ドイツ語学習者による留学経験が分節的・超分節的特徴における発音に与える影響
[5] 水野 秀之(諏訪理科大),中嶋 秀治(NTT)
高齢者向け発話の韻律予測