タグ: マルチモーダル

10件の記事が見つかりました

その他 2025年12月2日

Luxが拓くデスクトップ新時代

OpenAGIのLuxはスクリーンショットを理解しSlackやExcelなどネイティブアプリまで自動操作する先進的なエージェントで、SDK公開とIntelとの協業により現場導入が一層期待されます。

Lux デスクトップ自動化マルチモーダル SDK ベンチマーク

その他 2025年11月29日

視覚だけで操作するローカルAI Fara-7Bの可能性

Fara-7Bは視覚入力だけで家庭用デバイスをローカル制御する小型AIの試みで、低遅延やプライバシー保護が期待されますが認識精度や互換性、更新運用の改善が実用化の鍵であるため、THE DECODERの報道を基に整理した本稿を参考に、今後の公式発表やデモにご注目ください。

Fara-7B オンデバイスAI 視覚入力マルチモーダルプライバシー

その他 2025年11月29日

Qwen3-VLが示す2時間動画解析の実力

Alibabaの報告によればQwen3-VLは約2時間の動画解析が可能とされ、映像解析や教育、品質管理など実務応用の可能性を示しています。

Qwen3-VL マルチモーダル長尺動画解析映像要約監視映像

技術 2025年11月28日

動画だけでピアノ演奏の筋活動を再現するAI

標準的な映像だけでピアノ演奏中の手の筋活動を高精度に推定する技術が登場し、教育やリハーサル、研究、機器設計など幅広い分野で非接触の新たな解析手法を提供すると期待され、実運用に向けた倫理や公平性の検討も進みつつあります。

筋電図推定非接触解析マルチモーダル深層学習

ビジネス 2025年11月21日

GoogleのNano Banana Proが変えるAI画像

GoogleのNano Banana ProはGemini 3を核に、高解像度化と編集機能、ウェブ検索連携でAI画像の精度と実用性を高めます。クリエイターや企業は制作効率と出典確認の恩恵を受けつつ、導入時は著作権や誤情報対策を検討する価値があります。

Gemini3 画像生成マルチモーダル教材作成

LLM 2025年11月19日

Gemini 3が拓く検索と働き方の未来

GoogleのGemini 3は、検索やアプリを横断して作業を自動化する新世代のAIで、Visual LayoutやDynamic View、Gemini Agentを通じてエコシステム統合と開発効率を高め、企業の生産性向上に貢献する可能性があります。

Gemini 3 マルチモーダル生成AI 業務自動化

技術 2025年11月18日

1.4兆の埋め込みで地球地図を再定義

AlphaEarth Foundationsが提案する約1.4兆の埋め込みとGoogle Earth EngineのSatellite Embeddingは、10×10m単位で地球を統一表現し保全や農業モニタリングをより迅速で高精度に進める可能性を示しています。

AlphaEarth 埋め込みマルチモーダル地球観測データ活用

技術 2025年11月17日

Geminiが複数画像でAI動画を精密制御

Google Geminiが複数の参照画像でAI動画生成の制御力を高める機能を導入し、クリエイターの表現精度や企業の制作効率が向上する一方、著作権やプライバシー、悪用対策の整備が急務となります

Gemini 動画生成マルチモーダル悪用リスク

LLM 2025年11月14日

ERNIE 5.0がGPT‑5に迫る理由

BaiduのERNIE 5.0はネイティブなマルチモーダル設計と商用＋オープンの二刀流戦略でGPT系に挑みますが、企業は性能・価格・ライセンスを自社データで検証し、用途に応じたハイブリッド運用を検討する必要があります。

ERNIE 5.0 GPT-5.1 マルチモーダル企業導入価格設定

技術 2025年11月12日

Baiduの28BマルチモーダルAI、実用性と注意点

Baiduの新マルチモーダルAI「ERNIE-4.5-VL-28B」は28Bだが入力ごとに約3Bだけ活性化するMoE設計で、Apache 2.0で公開され80GB GPU運用を想定しますが独立検証が必須です。

ERNIE-4.5 マルチモーダル MoE Apache-2.0

タグ: マルチモーダル

他のタグを見る