OpenAI の GPT-4o や Alibaba の Qwen3.5-Omni と比べ、新しい音声AIモデル Audio-Interaction は独特なアプローチを取った。常時リスニングのため、発話を待つのではなく、0.4秒ごとに「応答するか沈黙するか」を判定し続ける。開発元である中国・香港・シンガポール拠点の研究チームは 6 月 6 日、Apache 2.0 オープンソースライセンスで GitHub を通じて公開した。

リアルタイムストリーミング音声処理

Audio-Interaction は Qwen2.5-Omni-3B(3 億パラメータ)をベースとしている。音声ストリームを 0.4 秒のチャンク単位で処理し、各チャンク後に <silent> または <response> トークンを出力して判定を続ける。この仕組みにより、ユーザーが話し終わるのを待つ従来の VoiceOver AI と異なり、会話の自然な流れに沿った応答が可能になった。

実装されている機能は多岐にわたる。リアルタイム文字起こし、音声翻訳(英語-中国語)、背景ノイズの検出と環境音の認識が組み込まれている。咳などの日常音も識別するため、会議やカジュアルな環境でも実用的に機能する設計だ。

トレーニングデータと性能

訓練に使われた StreamAudio-2M データセットは、約 302,000 時間の多言語音声を含む。開発チームは言語モデル、音声データベース、生成音声ツールを組み合わせ、現実的なシーンを合成することで、実環境に近い訓練データを確保した。モデルウェイトはすでに GitHub で入手でき、訓練データは Hugging Face での公開予定とされている。

性能は Gemini 3 Flash や GPT-4o との比較ベンチマークで検証されている。特に「主動的な音響イベント検出」では Gemini 3 Flash を上回った。3 億パラメータの比較的コンパクトなモデルながら、7 億パラメータの大型モデル相当の性能を発揮している。

開発者向けリソースと今後の展開

GitHub リポジトリでコードとモデルウェイトが公開されており、開発者は即座にローカル環境で試用できる。Apache 2.0 ライセンスのため商用利用も許可されている。訓練データは後日 Hugging Face で公開予定で、カスタマイズやファインチューニングを検討する研究チームにとって基盤となりうる。

この動きは、音声 AI の競争が単なる大型モデルの開発から、「常時リスニング型」といった新しいインタラクションパラダイムへシフトしていることを示唆している。Qwen チームのオープンソース化により、エコシステム全体での実装や応用が加速する可能性がある。