Yifan Zhang divulga las especificaciones técnicas completas de DeepSeek V4: 1.6T parámetros, 384 expertos con 6 activaciones

Mensaje de Gate News, 22 de abril: el estudiante de doctorado de Princeton, Yifan Zhang, divulgó en X las especificaciones técnicas completas de DeepSeek V4, después de un adelanto el 19 de abril. V4 cuenta con 1.6 billones de parámetros totales y una variante liviana, V4-Lite, con 285 mil millones de parámetros.

El modelo emplea el mecanismo de atención DSA2, que combina la (DeepSeek Sparse Attention) previa de DeepSeek del V3.2 y la (Native Sparse Attention) NSA con embeddings de cabeza de 512 dimensiones, junto con (Sparse Multi-Query Attention)MQA( y )Sliding Window Attention(SWA). La capa MoE (Mixture of Experts) contiene 384 expertos con 6 activados por cada pase hacia adelante, utilizando el Fused MoE Mega-Kernel. Las conexiones residuales emplean la arquitectura Hyper-Connections.

Los detalles de entrenamiento revelados por primera vez incluyen el uso del optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), una ventana de contexto de preentrenamiento de 32K tokens y GRPO Group Relative Policy Optimization con corrección de divergencia KL durante el aprendizaje por refuerzo. La ventana de contexto final se extiende hasta 1 millón de tokens. El modelo es solo texto.

Zhang no está empleado por DeepSeek, y la empresa no ha comentado oficialmente la información divulgada.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

OpenAI lanza un modelo de Filtro de Privacidad de código abierto para la detección y anonimización de PII

Resumen: El Filtro de Privacidad de OpenAI es un modelo de código abierto, ejecutable localmente, que detecta y anonimiza datos de información personal (PII) en texto. Admite contextos extensos, identifica muchas categorías de PII y está pensado para flujos de trabajo que preservan la privacidad, como la preparación de datos, la indexación, el registro (logging) y la moderación. El Filtro de Privacidad de OpenAI es un modelo de código abierto y ejecutado localmente (128k-token context) que detecta y anonimiza PII en texto, cubriendo datos de contacto, financieros y de credenciales para flujos de trabajo de privacidad.

GateNewsHace17m

OpenAI planea desplegar 30GW de potencia informática para 2030

OpenAI aspira a contar con 30GW de capacidad informática para 2030 para satisfacer la creciente demanda de IA, con 8GW ya completados de un objetivo de 10GW para 2025. La expansión señala una estrategia para ampliar la infraestructura para el desarrollo y despliegue de la IA de próxima generación. OpenAI pretende alcanzar 30GW de potencia informática para 2030 para atender la creciente demanda de IA, habiendo ya completado 8GW de un objetivo de 10GW para 2025. La medida refleja una expansión estratégica de la infraestructura para respaldar el desarrollo y despliegue de la IA de próxima generación.

GateNewsHace18m

El agente de descubrimiento de vulnerabilidades impulsado por IA de 360 encuentra casi 1.000 exploits de día cero, compitiendo con Mythos

El agente impulsado por IA de 360 Digital Security afirma haber encontrado alrededor de 1.000 vulnerabilidades nuevas, incluidas en Office y OpenClaw; la IA ahora es clave para el descubrimiento y la preparación de la cadena de explotación, compitiendo con Mythos. Resumen: Un informe citado por Bloomberg señala que el Agente de Descubrimiento de Vulnerabilidades impulsado por IA de 360 Digital Security Group identificó cerca de 1.000 vulnerabilidades previamente desconocidas en los últimos meses, incluidas en Microsoft Office y el framework OpenClaw. La empresa afirma que la IA se ha convertido en el motor central del descubrimiento de vulnerabilidades y ha anunciado una herramienta de IA para acelerar la construcción de cadenas de explotación. Benincasa describe a 360 como un competidor de Mythos, de Anthropic, basándose en la revisión de Natto Thoughts sobre los anuncios en idioma chino de la empresa.

GateNewsHace23m

CEO de Anthropic se reúne para romper el hielo en la Casa Blanca: consulta con el Jefe de Gabinete y con Bessent Mythos

The Wall Street Journal said that on 4/17, Anthropic CEO Amodei met privately with the White House, focusing on Mythos’s national security boundaries and responsible deployment; the White House said the meeting was constructive, and the market viewed it as a thawing of relations. The core disagreement is that the military wants Claude for all lawful purposes, while Anthropic insists on exercising discretion under its own acceptable use policy. Both sides said they will continue the dialogue and talk again before Mythos goes live in May.

ChainNewsAbmediahace2h

Google Ironwood TPU: 10 veces el rendimiento + cuatro socios para competir contra Nvidia

Según el informe en profundidad de Bloomberg y el anuncio oficial de Google, Google amplió oficialmente su cartera de chips de IA de diseño propio el 22 de abril: el chip dedicado a inferencia Ironwood (TPU de séptima generación) se suministrará en su totalidad a través de Google Cloud, y al mismo tiempo se pondrá en marcha la colaboración de próxima generación con cuatro socios, Broadcom, MediaTek, Marvell e Intel, con el objetivo de desafiar de forma positiva la posición dominante de Nvidia en el mercado de cómputo de IA mediante una cadena de suministro de chips personalizados. Ironwood: TPU de séptima generación, diseñada por primera vez específicamente para inferencia Ironwood es el producto de la séptima generación de la serie TPU de Google y el primer chip dedicado a inferencia bajo la estrategia de “separación entre entrenamiento e inferencia”. Las especificaciones reveladas por Google: el rendimiento pico por chip es T

ChainNewsAbmediahace2h

DeepSeek negocia ronda inicial de financiación externa, valoración de 20.000 millones de dólares: nuevo máximo de valoración de la IA en China

Según el informe de Bloomberg del 22 de abril (vía The Information en exclusiva), la startup china de IA DeepSeek está en conversaciones para una primera ronda de financiación externa, con una valoración de 2.000 millones de dólares. Esta es la primera vez que DeepSeek busca financiación externa desde su creación en 2023; en el pasado, estuvo completamente financiada internamente por el fondo de cobertura cuantitativo High-Flyer Capital Management. Una valoración de 2.000 millones de dólares también es un hito para la primera vez que una startup china de IA entra en la segunda mitad del rango de “valoraciones de cien mil millones de dólares”. Tamaño de la financiación y uso de los fondos DeepSeek busca al menos 300 millones de dólares en su primera ronda de financiación; la valoración de 2.000 millones de dólares duplica nuevamente la valoración de “más de 10.000 millones de dólares” divulgada por primera vez el 17 de abril por The Information.

ChainNewsAbmediahace2h
Comentar
0/400
Sin comentarios