Mensaje de Gate News, 23 de abril — investigadores de Google, incluidos He Kaiming y Xie Saining, publicaron un artículo que presenta Vision Banana, un modelo general de comprensión visual creado mediante un ajuste fino ligero de instrucciones del modelo de generación de imágenes Nano Banana Pro (Gemini 3 Pro Image) de la empresa. La innovación clave unifica las salidas de todas las tareas de visión como imágenes RGB, lo que permite segmentación, estimación de profundidad y predicción de normales de superficie mediante generación de imágenes sin arquitecturas ni funciones de pérdida específicas de cada tarea.

En segmentación semántica, Vision Banana superó al modelo especializado SAM 3 en 4.7 puntos porcentuales en Cityscapes; en segmentación por expresiones referenciales, superó a SAM 3 Agent. Sin embargo, quedó por detrás de SAM 3 en la segmentación de instancias. Para tareas 3D, la estimación métrica de profundidad logró una precisión media de 0.929 en cuatro conjuntos de datos estándar, superando el 0.918 de Depth Anything V3, usando solo datos sintéticos sin información real de profundidad ni parámetros de cámara durante la inferencia. La estimación de normales de superficie logró resultados de vanguardia en tres benchmarks del interior.

El ajuste fino implicó un conjunto mínimo de datos de tareas de visión mezclado en el entrenamiento original de generación de imágenes, preservando las capacidades de generación del modelo: el rendimiento coincidió con el Nano Banana Pro original en pruebas de calidad de generación. El artículo propone que el preentrenamiento de generación de imágenes en visión es análogo al preentrenamiento de generación de texto en lenguaje: los modelos aprenden las representaciones internas necesarias para la comprensión de imágenes durante la generación, y el ajuste fino de instrucciones solo libera esta capacidad.

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Samsung SDS amplía su asociación con Google Cloud para atender sectores regulados con servicios de IA y seguridad

Noticias de la industria de la IA

Mensaje de Gate News, 23 de abril — Samsung SDS amplió su asociación con Google Cloud para ofrecer servicios de IA, computación en la nube y seguridad a industrias reguladas, incluidos el gobierno y los servicios financieros. Las empresas implementarán Google Distributed Cloud para clientes que requieran localización de datos

GateNewsHace16m

Sullivan & Cromwell se disculpa por alucinaciones de IA en un escrito judicial con 40 citas erróneas

Noticias de la industria de la IA

Mensaje de Gate News, 23 de abril — Sullivan & Cromwell, un importante despacho de abogados de Wall Street, se disculpó ante un juez federal después de presentar un escrito judicial que contenía aproximadamente 40 citas incorrectas y otros errores provocados por alucinaciones de IA. Andrew Dietderich, codirector del equipo global de reestructuración del despacho

GateNewsHace32m

Tencent lanza y abre código de la vista previa de Hunyuan Hy3 con 295B de parámetros

Noticias de la industria de la IA

Mensaje de Gate News, 23 de abril — Tencent presentó y lanzó como código abierto una vista previa de Hunyuan Hy3, un modelo de lenguaje híbrido de mezcla de expertos (MoE) que incorpora la fusión entre pensamiento rápido y lento. El modelo consta de 295 mil millones de parámetros totales con 21 mil millones de parámetros activos, y admite una longitud máxima de contexto de 256K

GateNewsHace46m

Corea del Sur y Vietnam firman 70+ memorandos de entendimiento sobre IA, energía e infraestructura de datos

Noticias de la industria de la IA

Mensaje de Gate News, 23 de abril — Corea del Sur y Vietnam firmaron más de 70 memorandos de entendimiento (MOUs) durante la visita de Estado del presidente Lee Jae Myung a Hanói el 23 de abril, abarcando IA, energía, infraestructura y telecomunicaciones. Un foro empresarial al que asistieron más de 500 ejecutivos discutió el ecosistema de IA y de la industria energética, con grandes conglomerados coreanos como Samsung, SK, LG y Hyundai representados.

GateNewsHace47m

Motor de respuesta por IA contaminado en masa: 56% de las respuestas correctas de Gemini 3 no tiene respaldo de fuentes

Noticias de la industria de la IA

Este texto señala que el motor de preguntas y respuestas con IA consulta referencias web en tiempo real; si la fuente es generada por IA o carece de evidencia, se contamina el resultado. No es necesario volver a entrenar para que surta efecto, y esto se denomina contaminación por recuperación (retrieval contamination). Aunque Gemini3 tiene una alta tasa de acierto, el 56% de las respuestas carece de fuentes verificables; casos como Lily Ray y Grokipedia muestran que la IA es fácilmente engañable con contenido inventado. La conclusión es que la capa de citas se desacopla de autores confiables, formando un ciclo de contaminación de auto-refuerzo; aun así, los usuarios deben volver a los orígenes originales y no considerar la respuesta como el punto final de la verificación de hechos.

ChainNewsAbmediaHace55m

Anthropic 告法院：已部署到五角大楼的 AI 模型没有“杀伤开关（'Kill Switch'）”

Noticias de la industria de la IA

Gate News сообщение，4月23日——Anthropic 向美国哥伦比亚特区巡回上诉法院提交了一份文件，称一旦其 AI 模型被部署在五角大楼环境中，公司既没有可见性，也没有技术手段来控制或关闭这些模型，并且不存在“杀伤开关（"kill switch"）”

GateNewsHace57m

Comentar

0/400

Sin comentarios