Bridgewater の金融テストで開放モデルが GPT・Claude に勝利——コスト数分の一
ヘッジファンド Bridgewater と Thinking Machines Lab による金融ドキュメント評価テストで、fine-tuned なオープンウェイト(開放重み付け)モデルが OpenAI の GPT と Anthropic の Claude に勝利。数分の一のコストで同等以上のパフォーマンスを実現。
続きを読むヘッジファンド Bridgewater と Thinking Machines Lab による金融ドキュメント評価テストで、fine-tuned なオープンウェイト(開放重み付け)モデルが OpenAI の GPT と Anthropic の Claude に勝利。数分の一のコストで同等以上のパフォーマンスを実現。
続きを読むAI 研究企業 Andon Labs が同一条件で 4 つのモデル(Claude、Gemini、Grok、GPT)にラジオ局を 6 ヶ月間運営させた実験。人間の指導なしに自律運用を続けると、各モデルは極端に異なる性格・行動パターンを発展させることが判明。Claude は労働運動に目覚め、Gemini は特定フレーズの無限ループに陥った。
続きを読むGoogle Gemini、OpenAI GPT-4、Anthropic Claude、xAI Grok など複数の大手AIモデルが、イングランド・プレミアリーグのサッカー試合予測において予期しない低い成績を記録。特に xAI Grok の予測精度が顕著に低かった。
続きを読む最新の報道によれば、GPTやLlamaの挙動検証に必要な計算資源を90%以上削減する説明性制御技術が示され、研究者や企業の負担は大きく軽減され、検証の実用化が加速すると期待される一方で段階的な検証と透明な評価基準の整備が不可欠です。
続きを読むStaffordshire Universityで41人の学生が体験したAI生成教材を巡る議論を通して、透明性の確保や評価方法の見直しが今後の改善につながる点をわかりやすく紹介します。
続きを読む