タグ一覧に戻る

マルチモーダル

記事数: 79
Gemma 4 完全ガイド:スマホで動くGoogle最新オープンモデルの実力と使い方

Gemma 4 完全ガイド:スマホで動くGoogle最新オープンモデルの実力と使い方

Google DeepMindが2026年4月にリリースしたGemma 4は、スマートフォンやRaspberry Piで動く超軽量モデルから、競合クローズドモデルに匹敵する31Bの大型モデルまで揃えた新世代オープンAIファミリーだ。マルチモーダル対応、Apache 2.0ライセンス、140言語対応という三拍子が揃い、AI活用の裾野を一気に広げる可能性を秘めている。

続きを読む
室内で迷うロボを救う新AIの正体とは?

室内で迷うロボを救う新AIの正体とは?

屋内や高密度ビル街で位置を見失う「kidnappedロボ」に対し、オンボードセンサーと高度なローカライゼーションAIが手がかりを統合して位置感覚を回復します。導入で現場の自律移動は安定し、安全性と作業効率の向上が期待できます。

続きを読む
写真と平面図をピクセルで結ぶ新視覚法

写真と平面図をピクセルで結ぶ新視覚法

コーネル大学の新手法は写真と平面図をピクセル単位で結びつけることを目指しており、詳細は未公開ながら建築現場やロボティクス、AR、3Dモデリングで設計図と現場写真の整合性を高め自動化や検査の精度向上に貢献する可能性が期待されています。

続きを読む
Google Research 2025:AIの大胆突破

Google Research 2025:AIの大胆突破

Google Research 2025の報告は、研究成果が実務へ移る転換点を示しています。スケール化、マルチモーダル連携、安全性評価の強化が進み、産業横断で新たな機会と課題が生まれます。公式資料を基にまず小さな実証から始めることを勧めます。

続きを読む
視覚だけで操作するローカルAI Fara-7Bの可能性

視覚だけで操作するローカルAI Fara-7Bの可能性

Fara-7Bは視覚入力だけで家庭用デバイスをローカル制御する小型AIの試みで、低遅延やプライバシー保護が期待されますが認識精度や互換性、更新運用の改善が実用化の鍵であるため、THE DECODERの報道を基に整理した本稿を参考に、今後の公式発表やデモにご注目ください。

続きを読む