DeepSeekの学習データが33Tまで倍増、リリースを遅らせた不安定性が発生

Gate Newsメッセージ、4月24日 — DeepSeekのV4技術レポートによると、V4-FlashとV4-Proはそれぞれ32Tおよび33Tトークンで事前学習されており、V3で使用された約15Tトークンの約2倍です。レポートでは、学習中に「重大な不安定性の課題」に遭遇したことを認めており、損失スパイクがMixture-of-Experts (MoE)層の異常によって繰り返し発生していました。ルーティング機構そのものがこれらの異常を悪化させており、単純なロールバックでは問題を解決できないとしています。

DeepSeekは実際の学習に適用された2つの解決策をすでに導入しています。予測的ルーティングは、ルーティング・インデックスの計算をバックボーン・ネットワークの更新から切り離し、損失スパイクが検出されたときにのみ自動的にトリガーするもので、(約20%のオーバーヘッド)が追加されるとしています。SwiGLUクランピングは、活性値を固定範囲にクランプすることで異常を直接抑制します。レポートでは、どちらのアプローチも有効だと述べつつ、「基礎となる原理は十分に理解されていないままだ」と認めています。

以前にMeta AIやOpenAIで働いていたGoogle DeepMindの研究者であるSusan Zhangは、学習データを倍にしたことで引き起こされた不安定性が「遅れを説明する」とコメントしました。彼女は、その2つの解決策を「応急処置」と表現しながらも、DeepSeekの技術的な透明性を認めています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし