El jefe de IA de Tencent, Yao Shunyu, defiende el ritmo de desarrollo en una conferencia del 5 de junio

El científico jefe de IA de Tencent, Yao Shunyu, hizo su primera aparición pública el 5 de junio en la Conferencia de Aplicaciones de la Industria de IA de Tencent Cloud, donde habló sobre el modelo de lenguaje Hunyuan 3 de la empresa y respondió a las críticas de que Tencent se ha quedado atrás en el desarrollo de IA. Yao, que se incorporó a Tencent desde OpenAI y lidera el equipo del modelo Hunyuan, participó en un diálogo con el vicepresidente ejecutivo senior de Tencent, Tang Daosheng, en el que abordaron la estrategia de modelos de IA, el desarrollo de productos y el futuro de los agentes inteligentes. El científico de 28 años abordó el escepticismo externo al caracterizar la competencia de IA como una maratón y no un sprint, afirmando que el mundo no puede depender únicamente de ChatGPT como una única aplicación dominante.

Yao Shunyu detalla el enfoque de desarrollo de Hunyuan 3

Yao describió tres mejoras fundamentales en Hunyuan 3 durante el diálogo de la conferencia. “En realidad no hay ningún secreto. Construir modelos grandes hoy es, en cierta medida, una tarea bastante tediosa. Deberíamos centrarnos en que la infraestructura sea correcta, en que los datos sean correctos; la parte de algoritmos es relativamente sencilla”, afirmó Yao. Las mejoras incluyeron reconstruir toda la infraestructura para el preentrenamiento y el aprendizaje por refuerzo, actualizar de forma integral los sistemas de datos y evaluación con mayor énfasis en definir problemas reales y mejorar la calidad de los datos, y tomar decisiones guiadas por el “gusto” en la contratación, el ritmo de desarrollo del modelo y los compromisos.

Yao, quien propuso la arquitectura ReAct durante su investigación doctoral, enfatizó que muchas decisiones en el desarrollo del modelo son “guiadas por el gusto” más que por fórmulas. “Muchas decisiones en realidad están muy guiadas por el gusto”, repitió varias veces durante el diálogo. Su tesis doctoral de 2019, titulada “From Next Token Prediction to Digital Automation”, exploró agentes lingüísticos durante la era de GPT-2. “En ese momento aún era la era de GPT-2 y ni siquiera podía generar párrafos continuos: había muchos bordes ásperos”, recordó Yao. “Pero sentí que en ese entonces GPT era algo muy elegante, y producir el token siguiente es una tarea extremadamente simple pero muy general. Creí que algún día no solo podría emitir el token siguiente, sino automatizarlo todo en este mundo.”

Yao identificó a los agentes de codificación como la forma más esencial de agentes inteligentes porque son completos de Turing. Expuso la estrategia de tres partes de Tencent para el desarrollo de agentes: hacer énfasis en el diseño integral de sistemas, aprovechar plenamente los datos que fluyen de las líneas de producto y mantener una imaginación suficiente para la exploración. En la estrategia de desarrollo de modelos, Yao compartió tres direcciones: mantener sistemas de datos integrales pese a que la codificación se vuelve la vía más importante, aprovechar los datos de retroalimentación de las líneas de producto mediante experiencias de codiseño y explorar nuevos paradigmas en la evolución de la tecnología y del producto.

En cuanto a los compromisos costo-rendimiento, Yao afirmó que el rendimiento es el requisito previo para la eficiencia de costos. “Mucha gente encuentra que usar un modelo sólido es más barato que usar uno malo, porque logra las cosas correctamente más rápido”, explicó. Sugirió que lograr un rendimiento sólido con modelos relativamente más pequeños y mantener un rendimiento robusto en la mayoría de las tareas “podría ser más valioso en la China de hoy”.

Tencent define requisitos organizacionales para la AGI

Yao presentó el concepto de “la segunda mitad de la IA” en un artículo de blog el año pasado, un término que ahora se usa ampliamente en la industria. Explicó que la esencia de este concepto radica en un cambio fundamental: mientras que las décadas pasadas del desarrollo de IA se centraron en “encontrar métodos”, ahora que las metodologías han madurado, “encontrar buenos problemas” se ha vuelto más difícil. “En el pasado inventamos métodos como AlphaGo para jugar al Go, pero solo podía jugar ajedrez. Hicimos un modelo especial para traducción, pero solo podía hacer traducción. Pero con el preentrenamiento y el postentrenamiento, ahora tenemos un martillo universal que puede golpear cualquier clavo”, explicó Yao. “Lo más difícil en realidad es encontrar buenos problemas que resolver.”

Yao afirmó que el amplio portafolio de productos y escenarios de Tencent aportan fuentes de problemas auténticas para la tecnología de IA, que fue su segunda razón para unirse a la empresa. Identificó la cultura como su motivación principal. “Cuando por primera vez hablé con el presidente Tang y otros líderes ejecutivos, mi primera impresión fue que todos eran muy honestos sobre lo que estamos haciendo bien y lo que no estamos haciendo bien: muy directos, sin maquillar las cosas”, dijo Yao. “En general, Tencent opera basándose en la confianza más que en métricas. Esta cultura franca, de bajo ego y pragmática, junto con el compromiso con el long-termism, es crucial para construir una organización de IA a largo plazo.”

Según Yao, la tarea más importante en la segunda mitad de la IA es establecer una organización de AGI basada en el largo plazo en China. Esta organización requiere construir un “triángulo equilibrado”: tecnología fundacional sólida, productos que generen valor y un espíritu de exploración en la frontera.

Yao y Tang abordan críticas sobre el ritmo en la conferencia

Yao afirmó durante el diálogo que la IA es un juego a largo plazo y que la segunda mitad acaba de comenzar. “No creo que ChatGPT y Claude Code vayan a ser las únicas superaplicaciones; eso sería un mundo muy desolador. Hoy es como la década de 1970, cuando aparecieron por primera vez las PC: todavía hay muchísimas cosas que hacer”, dijo Yao. Predijo que el futuro se volverá más diverso y no más singular, señalando que “los agentes de codificación apenas están empezando, y la inteligencia multimodal y encarnada —muchísimas cosas nuevas— apenas están comenzando a ocurrir”.

“En el pasado, los modelos y los productos pasaron por mucha exploración y dieron muchos rodeos. Creo que eso es normal”, afirmó Yao. “Lo más importante es si podemos enfrentarnos a nosotros mismos de manera honesta, si podemos ser reales, si podemos ver la retroalimentación y luego cambiar, y mantener la paciencia. Eso es lo más importante en la segunda mitad.”

Tang Daosheng afirmó que Tencent da la bienvenida a las críticas y sugerencias externas. “Somos una empresa con formatos de negocio muy diversos. A veces podemos ser rápidos y a veces lentos, y fracasaremos en algunas áreas. Pero esto es una maratón, y creemos que los modelos iterarán continuamente, las necesidades de los usuarios seguirán cambiando y surgirán nuevos formatos de producto”, dijo Tang.

Preguntas frecuentes

¿Qué anunció Yao Shunyu en la conferencia de Tencent del 5 de junio?

Yao Shunyu, el científico jefe de IA de Tencent, habló sobre el enfoque de desarrollo del modelo de lenguaje Hunyuan 3 en la Conferencia de Aplicaciones de la Industria de IA de Tencent Cloud el 5 de junio. Detalló tres mejoras fundamentales: reconstruir la infraestructura para el preentrenamiento y el aprendizaje por refuerzo, actualizar los sistemas de datos y evaluación e implementar la toma de decisiones guiada por el gusto en la contratación y el desarrollo del modelo. Yao también respondió a las críticas sobre el ritmo de desarrollo de IA de Tencent al caracterizar la competencia como una maratón y no como un sprint.

¿Por qué Yao Shunyu se unió a Tencent desde OpenAI?

Yao afirmó durante el diálogo de la conferencia que la cultura era su razón principal para unirse a Tencent. Describió su primera impresión del liderazgo de Tencent como “muy honesta” y “directa, sin cubrir las cosas”. Yao explicó que Tencent opera basándose en la confianza más que en métricas, con una “cultura franca, de bajo ego y pragmática”, y con un compromiso con el long-termism que considera crucial para construir una organización de IA a largo plazo. Su segunda razón fue el amplio portafolio de productos de Tencent, que ofrece fuentes auténticas de problemas para el desarrollo de tecnología de IA.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios