BioMysteryBench: Mythos resuelve expertos sin solución 29,6%

Anthropic el 29 de abril publicó en su boletín oficial de investigación BioMysteryBench—un nuevo estándar de evaluación para las capacidades de análisis de IA en bioinformática, compuesto por preguntas abiertas en escenarios de investigación reales. Los datos más dignos de atención son: en los problemas que incluso después de que un panel de expertos humanos lo intentara no pudieron resolver, el modelo insignia de Anthropic, Mythos, los resolvió en un 29,6%, y Opus 4.7 en un 27,0%.

Diseño de la evaluación: dos vías, problemas resolubles y problemas no resolubles por expertos

BioMysteryBench consta de dos tipos de preguntas. La primera categoría es la de “problemas resolubles”—tareas de análisis diseñadas por investigadores de bioinformática, con respuestas estándar para comparar; la segunda categoría es la de “problemas no resolubles por expertos”—preguntas que un panel de expertos humanos intentó, pero que no logró encontrar respuestas confiables, para probar si el modelo puede cruzar los límites del conocimiento actual en el campo.

En la parte de problemas resolubles, los modelos de distintas generaciones de Anthropic muestran un gradiente claro de capacidad: Claude Haiku 4.5 resolvió el 36,8%, Claude Sonnet 4.6 alcanzó el 71,8% y el más reciente modelo insignia, Claude Mythos, alcanzó el 82,6%. Este gradiente en general coincide con las diferencias de capacidad que Anthropic afirma públicamente: Haiku es el modelo ligero, Sonnet el modelo principal y Mythos el modelo de investigación de gama alta.

Lo verdaderamente polémico está en la parte de problemas no resolubles por expertos. Este tipo de preguntas se marca como “no resoluble o sin consenso” tras ser evaluadas por un panel de expertos en bioinformática; Mythos resolvió el 29,6% de ellas y Opus 4.7 el 27,0%. Este resultado no es una prueba única de “el modelo es más fuerte que los humanos”. Más precisamente, en los problemas que los expertos no pueden abordar por limitaciones de ruta, tiempo o recursos, la IA puede proponer rutas de solución verificables; quizá no sean la respuesta final, pero sí poseen la característica de “un ángulo que los humanos no han intentado”.

Avance en paralelo con Claude for Life Sciences

BioMysteryBench va en la misma dirección que el plan “Claude for Life Sciences” que Anthropic impulsa desde la segunda mitad de 2025. El segundo apunta a escenarios de aplicación concretos como el desarrollo de fármacos, la genómica y el diseño de ensayos clínicos; el primero, en cambio, utiliza métodos de evaluación para cuantificar el progreso de la “capacidad a nivel de investigación” de la IA en el campo de las ciencias de la vida. La señal combinada es: Anthropic posiciona la biomedicina como uno de los principales campos de aplicación a largo plazo de Claude, compitiendo con la ruta de DeepMind AlphaFold desde un enfoque de entrada distinto.

Si el dato de Mythos de casi el 30% de problemas no resolubles por expertos puede reproducirse en una verificación independiente de terceros, se convertirá en una validación temprana del valor concreto de los modelos de IA en escenarios de investigación. Los puntos a observar a partir de ahora incluyen: si BioMysteryBench será adoptado por otras instituciones de investigación como evaluación estándar, el procedimiento de verificación de expertos humanos para las preguntas resueltas y si Mythos puede replicar los resultados de prueba en planes de investigación reales.

Este artículo BioMysteryBench: Myhtos resuelve problemas no resolubles por expertos 29,6% apareció por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Claw Intelligence se asocia con Block Sec Arena para reforzar la seguridad de BNB Chain

Según el anuncio oficial de Block Sec Arena del 30 de abril, Claw Intelligence, una plataforma Web3 impulsada por IA construida sobre BNB Chain, ha anunciado una asociación estratégica con Block Sec Arena para integrar infraestructura avanzada de ciberseguridad en su ecosistema. La colaboración tiene como objetivo fortalecer p

GateNewshace1h

NTT anuncia la iniciativa AI x OWN y planea triplicar la capacidad de energía en Japón a 1 GW para 2033

El 27 de abril, el presidente de NTT, Akira Shimada, anunció la iniciativa AI x OWN, el esfuerzo de la empresa por rediseñar la infraestructura de internet para el uso de IA en tiempo real. NTT planea triplicar su capacidad de energía nacional, de aproximadamente 300 MW hoy a alrededor de 1 gigavatio para el año fiscal 2033, ya que el gigante de la telecomunicación

GateNewshace2h

La plataforma de IA Certifyde completa una ronda semilla de 2 millones de dólares el 1 de mayo, respaldada por el CEO de Ripple, Brad Garlinghouse

Según TechfundingNews, la plataforma de aplicaciones de IA Certifyde completó una ronda de financiación semilla de 2 millones de dólares el 1 de mayo. Los inversores incluyen K5 Global, Flamingo Capital y inversores ángel, incluidos el cofundador de Honey, George Ruan, el CEO de Ripple, Brad Garlinghouse, y el cofundador de Nutra, Roland

GateNewshace3h

Subsecretario de tecnología del Pentágono: Anthropic sigue en la lista negra, excepciones para Mythos

El 1 de mayo, el máximo responsable de tecnología del Departamento de Defensa de Estados Unidos (Pentagon technology chief) declaró ante el Congreso: «Anthropic sigue en la lista negra, pero Mythos Preview es otro tema», reconociendo oficialmente que el Departamento de Defensa trata de manera diferente la marca principal Anthropic y su nuevo modelo, Mythos. Esta postura coincide con lo revelado por Axios el 19 de abril, que indicó que la NSA (Agencia de Seguridad Nacional) ya ha utilizado Mythos en la práctica, y también consolida formalmente la orientación de política hacia un «canal de excepción para Mythos». Al mismo tiempo, implica una contradicción interna a nivel de argumentación legal: el Departamento de Defensa había sostenido en los tribunales que usar herramientas de Anthropic amenazaría la seguridad nacional, en contraste con las prácticas actuales. Anthropic vs Pentagon

ChainNewsAbmediahace4h

137 Ventures cierra $700M en nuevos fondos; AUM alcanza 15.000 millones de USD

Según ChainCatcher, 137 Ventures, un inversor inicial en SpaceX, recientemente completó la recaudación de fondos para dos nuevos fondos con un total de más de 700 millones de dólares, elevando sus activos bajo gestión a más de 15 mil millones de dólares. El nuevo capital se destinará a inversiones en agentes de IA, robótica y propulsión espacial

GateNewshace4h

Reddit se dispara un 16% con una sólida perspectiva para el 2T; Apple enfrenta un déficit de Mac mientras la demanda de IA supera el suministro

Las acciones de Reddit subieron un 16% antes de la apertura del mercado el viernes después de que la empresa emitiera una guía de ingresos para el próximo trimestre superior a la esperada. Los visitantes activos diarios crecieron un 17% hasta 126,8 millones, mientras que los ingresos medios por usuario a nivel mundial aumentaron un 44%, impulsados por la IA,

GateNewshace4h
Comentar
0/400
Sin comentarios