Según Beating, MiniMax publicó su informe técnico M2 en arXiv, detallando su arquitectura insignia MoE (mixture-of-experts) y el sistema de entrenamiento de agentes Forge. La compañía reveló cómo Forge optimiza el aprendizaje por refuerzo de agentes con contexto largo mediante técnicas de planificación FIFO por ventanas y fusión de prefijos en árbol, logrando hasta un aumento de velocidad de entrenamiento de 40x.
M2.7 demostró capacidades de autoevolución autónoma de agentes, completando más de 100 rondas de ciclos de análisis, revisión de código y pruebas. En puntos de referencia de rendimiento, M2.7 alcanzó el 56,22% en SWE-Pro y el 52,7% en Multi-SWE-bench, con una tasa media de recompensa del 66,6% en MLE Bench, acercándose a los niveles de rendimiento de Gemini 3.1.