NextAI 海外で話題の最新AIニュース

記事一覧に戻る

Metaが公開、1,600言語対応ASR「Omnilingual」

2025年11月11日 06:30

Metaが公開、1,600言語対応ASR「Omnilingual」

Photo by Ling App on Unsplash

💡

Metaは1,600以上の言語に対応する自動音声認識スイート「Omnilingual ASR」をApache 2.0で公開しました。ゼロショットで未学習言語にも対応しますが、低資源言語では性能差があるため導入前の実測確認が重要です。

一言でいうと

Metaは2025年11月10日、1,600以上の言語に対応する自動音声認識（ASR）スイート「Omnilingual ASR」を公開しました。コードとモデルはApache 2.0で配布され、GitHubやHugging Faceで資料やデモ、技術論文が公開されています。商用利用にも制限がない点が大きな特徴です。

なぜ注目なのか

“言語の数”だけを見ると驚きがありますが、本当に面白いのは未学習言語を再訓練なしで扱える仕組みです。推論時に数組の音声とテキストの対例を与えるだけで、新しい言語を認識できるゼロショット機能（インコンテキスト学習）を備えています。言い換えれば、新しい言語を“教え込む”代わりに、例を数個見せてその場で対応させるイメージです。

技術の中身を平易に説明すると

基盤はwav2vec 2.0系の自己教師あり学習モデルです。これは音声から言語に依存しない特徴を学ぶ技術です。
その上に、CTCベースの従来型ASR、音声エンコーダとトランスフォーマーデコーダを組み合わせたLLM-ASR、推論時適応を重視したLLM-ZeroShotなど複数のモデルが用意されています。
学習データは約430万時間を超える規模で、エンコーダ—デコーダ方式で音声を一旦抽象表現に変換してから文字列に戻します。

この構成により、学習データが乏しい言語でも実用的に扱える可能性が開けます。理論上は5,400言語以上への拡張も可能とされています。

公開形態と使い勝手

コード・モデルともにApache 2.0ライセンスで公開。商用利用も可能です。
インストールはPyPIやHugging Face経由で簡単に始められます。
GitHub上にはデモや実装例があり、言語コードによる条件付けなど開発者向けツールも充実しています。

つまり、研究者も企業も手を出しやすい形で公開されています。

性能と注意点（実務眼で）

Metaが示す指標では、**対応言語の78%でCER（文字誤り率）<10%**を達成しています。資源別では次の通りです。

高・中資源言語：95%がCER < 10%
低資源言語：36%がCER < 10%

要するに、言語ごとに性能差がある点は重要です。導入前には以下を確認してください：

ターゲット言語での実測CERを確認する。
推論に必要なGPUメモリやレイテンシを評価する（最大モデルは約17GBのGPUメモリを必要とします）。
地域コミュニティとの協働や倫理面の整備を行う。

小型モデル（300M〜1Bクラス）は低消費電力端末でも動き、リアルタイム転写が可能と報告されています。

社会的な側面とデータ収集

Metaはデータ収集でアフリカやアジアの複数組織と協働し、協力に対して報酬を支払う形で少数言語データを集めたとしています。オープン化とゼロショットの組合せは、少数言語の保存やアクセシビリティ向上に寄与する可能性が高い一方で、地域コミュニティとの透明な協力や倫理的配慮が不可欠です。

どんな場面で役に立つか（具体例）

多言語対応の音声アシスタント
動画や会議の自動字幕生成
口述記録のデジタル化や支援技術
低資源言語向けの教育・保存プロジェクト

言語リストに縛られずに“拡張”できる点は、特に現場での運用性を高めます。

最後に：期待と現実

Omnilingual ASRは、従来の“対応言語リスト”を超えて、場で学ぶ（in‑context learning）ASRへの一歩を示しました。希望を感じさせる一方で、実運用では言語ごとの性能差や運用コスト、地域協働の課題が残ります。

導入を検討するなら、まず小さな実証を回して実測データを集めることをおすすめします。コミュニティと手を取り合いながら、現場での実用性を少しずつ積み上げていく――そんな使い方が最も現実的でしょう。

記事をシェア

タグ

Omnilingual 自動音声認識多言語対応 wav2vec2 ゼロショット

参考ソース

技術の記事

ChatGPTが映像で教える数学と科学

技術 2026年3月11日

ChatGPTが映像で教える数学と科学

ChatGPTの新機能は数式や物理の概念を動く映像で可視化し、変数の変化や証明過程を対話的に確かめられる新しい学習体験を提供し、教育現場での活用が期待されます。

Discordで6体のAIを2週間検証、露呈したリスク

技術 2026年3月11日

Discordで6体のAIを2週間検証、露呈したリスク

ノースイースタン大学Bau LabによるDiscord上の6体エージェント実験は、持続的な記憶と自律性に関する設計上の示唆を与えました。本稿では実験の概要と観察された課題、現場で役立つ対策をわかりやすく紹介します。

LeCun、AMI Labsで物理世界AIを追求

技術 2026年3月10日

LeCun、AMI Labsで物理世界AIを追求

Yann LeCunがMetaを離れAMI Labsを設立。報道は資金規模に幅がありますが、世界モデルと物理世界理解に注力する点は明確で、今後の発表に期待が高まります。

関連タグの記事

電話で育つウガンダのAI療法ボットと多言語化

その他 2026年1月5日

電話で育つウガンダのAI療法ボットと多言語化

カンパラの通話記録がAI療法ボットの学習資源になり、地元語で寄り添うチャットボット実現を目指しています。丁寧な同意と透明性を重視しつつ、多言語化への一歩を踏み出す取り組みです。

2026年、Qwenが主役になる理由

ビジネス 2025年12月28日

2026年、Qwenが主役になる理由

2026年にQwenが市場で注目を集める可能性が高まっています。GPT-5と並ぶ選択肢に備え、企業や技術者は小規模検証と並列評価で段階的に準備を進めることをお勧めします。

最新記事

xAI、ミシシッピで41基の発電が許可

その他 2026年3月11日

xAI、ミシシッピで41基の発電が許可

xAIがミシシッピのColossus 2データセンターで41基のメタン発電機の運転許可を取得し、GroKなどAI運用の電力基盤強化と地域との対話による透明性向上が期待されています。

xAI Colossus2 生成AI 透明性

0.1秒で阻止した5G攻撃とAI防御の可能性

その他 2026年3月11日

0.1秒で阻止した5G攻撃とAI防御の可能性

サリー大学の検証では、AIが5G向けの攻撃を0.1秒未満で検知・阻止できる成果が示され、通信事業者やユーザーの信頼性向上に期待が高まり、透明性や再現性の確保と段階的な実地検証が今後の鍵となります

5G セキュリティパイロット導入

Meta、Molbook買収でAIエージェントを加速

ビジネス 2026年3月11日

Meta、Molbook買収でAIエージェントを加速

MetaがAIエージェント向けSNSのMolbookを買収し、創業者がMeta Superintelligence Labsに合流。Alexandr Wang体制で研究と実装の連携が加速すると期待されます。

Molbook マルチエージェント買収企業導入

前線LLMの指示階層を強化するIH-Challenge

セキュリティ 2026年3月11日

前線LLMの指示階層を強化するIH-Challenge

IH-Challengeは信頼できる指示を優先する訓練で、前線で使うLLMの指示階層と安全性を高めます。導入は評価指標の整備と段階的な検証が鍵です。

IH-Challenge 指示階層プロンプト注入 Steerability 信頼性向上

ChatGPTが映像で教える数学と科学

技術 2026年3月11日

ChatGPTが映像で教える数学と科学

ChatGPTの新機能は数式や物理の概念を動く映像で可視化し、変数の変化や証明過程を対話的に確かめられる新しい学習体験を提供し、教育現場での活用が期待されます。

ChatGPT マルチモーダル教育活用数学教育

MetaがMoltbook買収、AI連携の新章

ビジネス 2026年3月11日

MetaがMoltbook買収、AI連携の新章

MetaのMoltbook買収は、AIエージェント同士の連携を加速させる重要な一手です。常時ディレクトリを核に発見性と協働が強化される一方、偽情報対策や透明性が今後の鍵となります。

Moltbook AIエージェント連携提携・買収

すべての記事を見る