議事録自動生成システムにおける音声の書き起こし機構の改善

はじめに

こんにちは,東京大学大学院 修士2年の兵藤弘明です.私は2024年3月から4月にかけて,CA Tech JOBのインターンシップに参加し,株式会社AI Shift で議事録自動生成のための効果的な音声認識パイプラインの検証に取り組みました.この記事では取り組んだ内容を具体的に紹介します.

タスクの背景

株式会社AI Shiftでは,オンライン会議の議事録を自動生成するシステムの技術検証を行っています.これは複数人の会話音声を入力とし,LLMを用いて会話の内容を要約し議事録のフォーマットにまとめたものを出力するシステムです.

このシステムでは,入力の会話音声をテキストに書き起こしてLLMに渡します.
今回のインターンシップでは,書き起こし推定処理の現状分析と改善に取り組みました.

現状の問題点の分析

品質の高い議事録を生成するためには,書き起こしの際に以下の点を正確に推定することが重要です.

  • 発話の認識内容
  • 発話タイミング(各発話の順序)

入力となる会議音声の長さは数十分程度であり,また様々なノイズが含まれています.そのため,単に音声認識をかけるだけでは十分な書き起こし精度を得ることができません.これまでの検証では,発話区間 (=発話タイミング) 検出モデルを用いて発話のない音声区間を除外する処理を行っていました.

しかしながら,検証データを用いて生成した議事録では,会議の決定事項の漏れや発言の前後関係の誤り、人名や組織名などの固有名詞の誤りが発生していました.こうした問題の原因を分析したところ,発話区間検出モデルにおいて,一部の発話の検出漏れやノイズの誤検知による発話タイミング誤りが発生しており,これらが議事録の品質低下の一因となっていることがわかりました.

改善手法

現状の処理により誤検知されているノイズを分析したところ,発話区間と比べて音量の小さいノイズが多く含まれていることがわかりました.そこで,音声信号の音量に対応する特徴量であるエンベロープを基準とした発話区間検出を実装しました.具体的には,発話区間検出モデルに音声を入力する前に,対数エンベロープの値が基準値以下となる区間を除外する処理を行います.

これにより,ノイズの誤認識に起因する発話認識/発話順序誤りの発生頻度を低減することができ,議事録の正確性の向上が確認されました.今後の改善点としては,より多様なノイズが含まれる音声や,複数話者の音声がオーバーラップする音声に対しても頑健に動作する処理の実現が考えられます

振り返り

今回のインターンシップは,実環境のデータから生成した議事録の問題点を分析するところからスタートしました.改善が必要な点を洗い出し,様々な手法を試しながら要件に適した技術を組み込むという一通りの流れを体験したことで,企業での研究開発の様子を知ることができ,とても貴重な経験をすることができました.

約12日と短い期間でしたが,メンターの東さん(@naist_usamarer)をはじめ多くの方にサポートいただいたおかげで,様々な点で成長できたと感じています.この場を借りて改めて感謝申し上げます.本当にありがとうございました!

PICK UP

TAG