BioMysteryBench: Mythos розв’язання — експерт не може розв’язати, безвихідне завдання 29,6%

ChainNewsAbmedia

2026-04-30 06:05:17

Anthropic 29 квітня у офіційному дослідницькому повідомленні оприлюднила BioMysteryBench — набір нових критеріїв оцінювання для здібностей AI в біоінформатичному аналізі, що складається з відкритих запитань у реальних дослідницьких сценаріях. Найбільш привертає увагу така цифра: у задачах, які людська експертна група все одно не змогла розв’язати, флагманська модель Anthropic Mythos розв’язала 29,6%, а Opus 4.7 — 27,0%.

Дизайн оцінювання: два треки — задачі, які можна розв’язати, і задачі, з якими експерти не впорались

BioMysteryBench складається з двох типів завдань. Перший — «задачі, які можна розв’язати»: аналітичні місії, спроєктовані біоінформатичними дослідниками, з еталонними відповідями для звірки. Другий — «задачі, з якими експерти не впорались»: питання, які людська експертна група після спроб так і не змогла знайти достовірну відповідь до них, щоб перевірити, чи модель здатна переступити межі знань, актуальні для цієї галузі.

У частині «задач, які можна розв’язати» Anthropic демонструє чіткий градієнт можливостей між поколіннями моделей: Claude Haiku 4.5 розв’язала 36,8%, Claude Sonnet 4.6 — 71,8%, а найновіший флагман Claude Mythos — 82,6%. Цей градієнт загалом відповідає заявленим Anthropic відмінностям у можливостях моделей — Haiku як легкий варіант, Sonnet як основна робоча модель, а Mythos як топова дослідницька.

Справді промовистою є частина «задач, з якими експерти не впорались». Це завдання, позначені експертною групою з біоінформатичної сфери як «нерозв’язні або без консенсусу» після оцінювання; Mythos розв’язала 29,6% із них, а Opus 4.7 — 27,0%. Цей результат — не єдине «підтвердження, що модель краща за людей». Точніше кажучи: там, де експерти не змогли опрацювати задачі через обрані шляхи, часові або ресурсні обмеження, AI здатен запропонувати верифікований шлях до розв’язання; це може бути не фінальна відповідь, але властиве йому «рішення з ракурсів, які люди навіть не пробували».

Паралельний розвиток із Claude for Life Sciences

BioMysteryBench і план Anthropic «Claude for Life Sciences», який рухається з другого півріччя 2025 року, спрямовані в одному напрямі. Останній орієнтується на конкретні сценарії застосування — розробку ліків, геноміку, дизайн клінічних випробувань тощо; перший же використовує методи оцінювання, щоб кількісно виміряти прогрес AI у «дослідницькому рівні» здібностей у сфері наук про життя. Сигнал, який дають разом обидва підходи, такий: Anthropic розглядає біомедицину як одну з ключових довгострокових ареною застосування Claude, конкуруючи з підходом DeepMind AlphaFold, але через інший вхід.

Цифра, що Mythos розв’язує майже 30% «задач, з якими експерти не впорались», якщо її вдасться відтворити в незалежній третій стороні, стане раннім практичним підтвердженням конкретної цінності AI-моделей у дослідницьких сценаріях. Подальші точки спостереження включають: чи буде BioMysteryBench прийнято іншими дослідницькими організаціями як стандарт оцінювання; процедури верифікації експертами-людьми для розв’язань; і чи зможе Mythos відтворювати результати тестів у реальних дослідницьких проєктах.

Ця стаття BioMysteryBench: Mythos розв’язує «задачі, з якими експерти не впорались» на 29,6% уперше з’явилася в 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.