Gate Newsメッセージ、4月24日 — DeepSeekのV4技術レポートによると、V4-FlashとV4-Proはそれぞれ32Tおよび33Tトークンで事前学習されており、V3で使用された約15Tトークンの約2倍です。レポートでは、学習中に「重大な不安定性の課題」に遭遇したことを認めており、損失スパイクがMixture-of-Experts (MoE)層の異常によって繰り返し発生していました。ルーティング機構そのものがこれらの異常を悪化させており、単純なロールバックでは問題を解決できないとしています。
DeepSeekは実際の学習に適用された2つの解決策をすでに導入しています。予測的ルーティングは、ルーティング・インデックスの計算をバックボーン・ネットワークの更新から切り離し、損失スパイクが検出されたときにのみ自動的にトリガーするもので、(約20%のオーバーヘッド)が追加されるとしています。SwiGLUクランピングは、活性値を固定範囲にクランプすることで異常を直接抑制します。レポートでは、どちらのアプローチも有効だと述べつつ、「基礎となる原理は十分に理解されていないままだ」と認めています。
以前にMeta AIやOpenAIで働いていたGoogle DeepMindの研究者であるSusan Zhangは、学習データを倍にしたことで引き起こされた不安定性が「遅れを説明する」とコメントしました。彼女は、その2つの解決策を「応急処置」と表現しながらも、DeepSeekの技術的な透明性を認めています。
Related News