LLM推論の非決定性、真犯人はバッチ?
同じ入力でLLMの出力が変わる原因は、単なる確率的選択だけでなくバッチサイズの変動に伴う計算順序の違いにあります。KVキャッシュや固定分割の工夫で安定性を高める道が開けています。
続きを読む同じ入力でLLMの出力が変わる原因は、単なる確率的選択だけでなくバッチサイズの変動に伴う計算順序の違いにあります。KVキャッシュや固定分割の工夫で安定性を高める道が開けています。
続きを読むStiefel(直交制約)とMuon(更新量を整える正規化)を組み合わせる新設計は、巨大モデルの数値安定性と性能向上を両立する可能性があり、実装工夫で実用化が期待されます。
続きを読むLoRAは条件次第でFullFTに迫る性能を示します。データ量とLoRAの容量、全層適用の可否が鍵で、実務では容量見積りとランク設計を重視すると効果的です。
続きを読むTinkerの公開によりQwen-235Bなどの大規模モデルがワンクリックに近い手軽さで微調整できるようになり、分散トレーニング管理を提供側が担い、LoRAで計算資源を共有してコストを抑えつつ研究や実験が加速すると期待され、オンボーディングは本日開始予定で主要大学や研究所が既に試験導入している点も注目です。
続きを読むOn-Policy蒸留は、小型モデルを低コストで実戦投入するための実践手法です。教師との逆KLを利用した密な報酬設計で安定的に性能向上を狙えます。AIME'24などのベンチで有望な結果が出ており、LoRA併用でさらにコスト削減が可能です。
続きを読むTinkerが教育と研究向けの助成を開始し、授業向けに学生一人あたり「0クレジット」配布、金額表記が欠けたResearch Grantsの開始もありつつ、スタンフォードやCMUでの活用事例が示すように教育と研究の連携が一層進みそうです。
続きを読むThinking MachinesのTinker募集は、研究者とビルダーが自由にモデルを訓練し成果を公開する舞台を提供し、write-upやオープンソース公開を通じて透明性と再現性に基づく堅実なAI研究文化の拡大を促し、参加希望はtinker@thinkingmachines.aiへご連絡ください。
続きを読むTinkerのGA公開で誰でも利用可能になり、長推論に強いKimi K2や視覚入力Qwen3-VLが加わって、開発効率と実務適用の幅が一気に広がります。
続きを読む