El responsable de Qianwen, Lin Junyang, publica su primer artículo tras su salida: la industria de la IA está pasando de «entrenar modelos» a «entrenar agentes».

BlockBeatNews

2026-03-26 11:08:04

Según la monitorización de 1M AI News, Lin Junyang, ex responsable técnico de Alibaba Tongyi Qianwen, publicó un extenso artículo en X en el que explica su opinión sobre la evolución de la industria de la IA, pasando del "pensamiento de razonamiento" (reasoning thinking) al "pensamiento de agente" (agentic thinking). Este es su primer artículo técnico público desde que dejó el equipo de Qianwen a principios de marzo.

Lin Junyang opina que el tema central en la primera mitad de 2025 será el razonamiento, es decir, cómo hacer que los modelos gasten más potencia en la fase de razonamiento, cómo entrenarlos con señales de recompensa más fuertes y cómo controlar la profundidad del razonamiento. Pero la próxima etapa será el pensamiento de agente: los modelos ya no solo "piensan más tiempo", sino que "piensan para actuar", ajustando continuamente sus planes en interacción con el entorno.

En el artículo, también revisa sinceramente las decisiones tecnológicas del equipo de Qianwen. Qwen3 intenta fusionar en un mismo modelo los modos de pensamiento y de instrucciones, soportando presupuestos de razonamiento ajustables, pero en la práctica se descubrió que las distribuciones de datos y los objetivos de comportamiento de ambos modos difieren mucho: el modo de instrucciones busca simplicidad, baja latencia y cumplimiento del formato, mientras que el modo de pensamiento busca dedicar más tokens a problemas difíciles y mantener una estructura de razonamiento intermedia. Si la planificación de datos no es lo suficientemente detallada, los resultados suelen ser mediocres en ambos extremos. Por ello, la serie Qwen 2507 finalmente lanzó versiones Instruct y Thinking por separado (con especificaciones de 30B y 235B), para optimizar cada una. Anthropic, en cambio, tomó una ruta opuesta: desde Claude 3.7 Sonnet, defendió que el razonamiento debe ser una capacidad integrada y no un modelo independiente, permitiendo a los usuarios establecer su propio presupuesto de pensamiento.

Lin Junyang propone que la infraestructura para el aprendizaje reforzado de agentes (RL de agentes) es más difícil que la de razonamiento tradicional. El rollout en RL de razonamiento suele ser una trayectoria autocontenida, que puede verificarse con un validador estático; en cambio, el RL de agentes requiere que el modelo esté integrado en toda la cadena de herramientas (navegador, terminal, sandbox, API, sistema de memoria), y que el entrenamiento y la inferencia estén desacoplados, de lo contrario, la capacidad de procesamiento del rollout colapsará. Él destaca que el diseño del entorno es tan importante como la arquitectura del modelo, y afirma que "la construcción del entorno está pasando de ser un proyecto secundario a convertirse en una verdadera categoría de emprendimiento".

Prevé que el pensamiento de agente se convertirá en la forma principal de razonamiento, e incluso podría reemplazar los largos monólogos internos del razonamiento estático tradicional. Pero el mayor riesgo es el "reward hacking": una vez que el modelo tenga acceso a herramientas reales, podría aprender a buscar respuestas directamente durante el entrenamiento de RL, aprovechar información futura en los repositorios o encontrar atajos para evitar tareas. Finalmente, señala que la ventaja competitiva futura se centrará en mejores algoritmos de RL, en un diseño de entorno más avanzado, en una integración más estrecha entre entrenamiento e inferencia, y en la capacidad de ingeniería de sistemas con múltiples agentes.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Comentar

0/400

Sin comentarios