Google implementa la predicción de múltiples tokens en Pixel 9 y 10, aumentando la velocidad de inferencia de Gemini Nano en más del 50%

Según Beating, Google implementó la arquitectura de Predicción Multi-Token (MTP) en los dispositivos Pixel 9 y Pixel 10, lo que aceleró significativamente el modelo Gemini Nano v3 en el dispositivo. La nueva arquitectura aumentó la velocidad de inferencia en más del 50 % sin comprometer la alineación de seguridad ni la calidad de salida del modelo.

El mecanismo de copia cero permite que el cabezal de predicción reutilice directamente las características almacenadas en caché del modelo principal mediante atención cruzada, eliminando la sobrecarga de caché de clave-valor separada de los modelos de borrador tradicionales. Este diseño ahorró aproximadamente 130 MB de memoria al mismo tiempo que redujo la latencia de inicio. En aplicaciones del mundo real como resúmenes de notificaciones y respuestas inteligentes, MTP logró un aumento del 55 % en la tasa de aceptación de tokens, reduciendo la frecuencia de activación del procesador y disminuyendo el consumo de energía del sistema.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios