Qwen チームが開発した Audio-Interaction、常時リスニング型音声AIで0.4秒ごとに応答判定

2026年6月6日 20:12

💡

中国・香港・シンガポール拠点の研究チームが Apache 2.0 で公開した新音声モデル Audio-Interaction。Qwen2.5-Omni-3B ベースで、従来の音声AIと異なり「0.4秒ごとに応答するか沈黙するかを判定」しながらリアルタイムで翻訳・文字起こしに対応。開発者が GitHub から即座に利用可能。

OpenAI の GPT-4o や Alibaba の Qwen3.5-Omni と比べ、新しい音声AIモデル Audio-Interaction は独特なアプローチを取った。常時リスニングのため、発話を待つのではなく、0.4秒ごとに「応答するか沈黙するか」を判定し続ける。開発元である中国・香港・シンガポール拠点の研究チームは 6 月 6 日、Apache 2.0 オープンソースライセンスで GitHub を通じて公開した。

リアルタイムストリーミング音声処理

Audio-Interaction は Qwen2.5-Omni-3B（3 億パラメータ）をベースとしている。音声ストリームを 0.4 秒のチャンク単位で処理し、各チャンク後に <silent> または <response> トークンを出力して判定を続ける。この仕組みにより、ユーザーが話し終わるのを待つ従来の VoiceOver AI と異なり、会話の自然な流れに沿った応答が可能になった。

実装されている機能は多岐にわたる。リアルタイム文字起こし、音声翻訳（英語-中国語）、背景ノイズの検出と環境音の認識が組み込まれている。咳などの日常音も識別するため、会議やカジュアルな環境でも実用的に機能する設計だ。

トレーニングデータと性能

訓練に使われた StreamAudio-2M データセットは、約 302,000 時間の多言語音声を含む。開発チームは言語モデル、音声データベース、生成音声ツールを組み合わせ、現実的なシーンを合成することで、実環境に近い訓練データを確保した。モデルウェイトはすでに GitHub で入手でき、訓練データは Hugging Face での公開予定とされている。

性能は Gemini 3 Flash や GPT-4o との比較ベンチマークで検証されている。特に「主動的な音響イベント検出」では Gemini 3 Flash を上回った。3 億パラメータの比較的コンパクトなモデルながら、7 億パラメータの大型モデル相当の性能を発揮している。

開発者向けリソースと今後の展開

GitHub リポジトリでコードとモデルウェイトが公開されており、開発者は即座にローカル環境で試用できる。Apache 2.0 ライセンスのため商用利用も許可されている。訓練データは後日 Hugging Face で公開予定で、カスタマイズやファインチューニングを検討する研究チームにとって基盤となりうる。

この動きは、音声 AI の競争が単なる大型モデルの開発から、「常時リスニング型」といった新しいインタラクションパラダイムへシフトしていることを示唆している。Qwen チームのオープンソース化により、エコシステム全体での実装や応用が加速する可能性がある。

記事をシェア

参考ソース

LLM・生成AIの記事

Alibaba が Qwen 3.8 発表、「Fable 5 に次ぐ」マルチモーダル AI モデル

LLM・生成AI

2026年7月19日

Alibaba が Qwen 3.8 発表、「Fable 5 に次ぐ」マルチモーダル AI モデル

Alibaba の Qwen チームが 2.4 兆パラメータのマルチモーダルモデル Qwen 3.8 をリリース。画像・動画・ドキュメント対応で、開発チームは Fable 5 に次ぐ性能を主張。プレビューは Token Plan で利用可能、オープンウェイト版は近日公開予定。

Google Gemini の使用量枠が仕様変更——計算方法が変わり、従来より少ない回答数に

LLM・生成AI

2026年7月18日

Google Gemini の使用量枠が仕様変更——計算方法が変わり、従来より少ない回答数に

Google は Gemini の使用量枠（クォータ）の計算方法を変更。従来の計算ロジックから切り替わり、同じプランでも利用できる回答数が減少する可能性が出現。有料プランユーザーに事前告知なく適用されるため注意が必要。

オープンソースAI 2026：能力格差3.3%、コスト50分の1、Mozillaが示した「使える時代」の全貌

LLM・生成AI

2026年7月18日

オープンソースAI 2026：能力格差3.3%、コスト50分の1、Mozillaが示した「使える時代」の全貌

Mozilla が2026年7月に公開した『State of Open Source AI』レポートが、AI業界に衝撃を与えている。クローズドモデルとの能力格差は3.3%まで縮小し、GPT-4相当の推論コストは3年で50分の1に。中国モデルが週間トラフィックの45%超を占め、ローカルLLMはもはや「使えるツール」となった実態を徹底解説する。