甘党AI、日本語モノラル音源に最適化した話者分離モデル「Sepamato」を開発:PR TIMES:福島民友新聞社

甘党AI株式会社
精度は従来の公開モデル比2倍以上。API／オンプレ対応、話者・語彙の最適化で柔軟に導入可能。

甘党AI株式会社（本社：福島県会津若松市、代表取締役：藤松勇滉、以下「当社」）は、日本語音声に最適化したモノラル音源の話者分離モデル「Sepamato（セパマト）」の開発を完了しました。本モデルは、字幕制作、音声認識システム、データセット構築など、幅広い用途でご活用いただけます。
主な特徴
- 日本語音声データセットで学習し、日本語データセットにおけるSI-SNRi評価で従来の公開モデル比2倍以上の改善を達成
- APIは当社の会話分析サービス「Rokavox」にて提供予定
- オンプレミス環境にも対応し、既存システムへ柔軟に組み込み可能
- 特定話者や特定領域の語彙に対する追加学習による最適化が可能

Sepamatoは、単一チャネルの話者分離モデルです

開発の背景

音声認識AIの普及が進む一方、会議・ライブ配信・接客などの実利用現場では、環境ノイズや複数話者の同時発話により、音声認識モデルの本来の認識精度を十分に発揮できないという課題があります。

また、複数話者が含まれる音声データから特定話者の音声のみを抽出できれば、音声対話データセットの作成など、新たな価値の創出が期待されます。

既存の公開話者分離モデルの多くは英語を中心に学習されており、日本語への最適化が不十分でした。

Sepamatoの概要

Sepamatoは、モノラル音源から各話者を高精度に分離する、日本語最適化の話者分離モデルです。日本語音声データセット（JVS）を用いた評価では、SI-SNRiが公開モデル比で2倍以上となりました。特定話者や特定領域の語彙に対する最適化により、さらなる精度向上が可能です。

SI-SNRi（Scale-Invariant Signal-to-Noise Ratio Improvement）：音量差に左右されず、混合音から特定音源をどの程度明瞭に分離できたかを示す評価指標