Anthropic 29 квітня у офіційному дослідницькому повідомленні оприлюднила BioMysteryBench — набір нових критеріїв оцінювання для здібностей AI в біоінформатичному аналізі, що складається з відкритих запитань у реальних дослідницьких сценаріях. Найбільш привертає увагу така цифра: у задачах, які людська експертна група все одно не змогла розв’язати, флагманська модель Anthropic Mythos розв’язала 29,6%, а Opus 4.7 — 27,0%.
Дизайн оцінювання: два треки — задачі, які можна розв’язати, і задачі, з якими експерти не впорались
BioMysteryBench складається з двох типів завдань. Перший — «задачі, які можна розв’язати»: аналітичні місії, спроєктовані біоінформатичними дослідниками, з еталонними відповідями для звірки. Другий — «задачі, з якими експерти не впорались»: питання, які людська експертна група після спроб так і не змогла знайти достовірну відповідь до них, щоб перевірити, чи модель здатна переступити межі знань, актуальні для цієї галузі.
У частині «задач, які можна розв’язати» Anthropic демонструє чіткий градієнт можливостей між поколіннями моделей: Claude Haiku 4.5 розв’язала 36,8%, Claude Sonnet 4.6 — 71,8%, а найновіший флагман Claude Mythos — 82,6%. Цей градієнт загалом відповідає заявленим Anthropic відмінностям у можливостях моделей — Haiku як легкий варіант, Sonnet як основна робоча модель, а Mythos як топова дослідницька.
Справді промовистою є частина «задач, з якими експерти не впорались». Це завдання, позначені експертною групою з біоінформатичної сфери як «нерозв’язні або без консенсусу» після оцінювання; Mythos розв’язала 29,6% із них, а Opus 4.7 — 27,0%. Цей результат — не єдине «підтвердження, що модель краща за людей». Точніше кажучи: там, де експерти не змогли опрацювати задачі через обрані шляхи, часові або ресурсні обмеження, AI здатен запропонувати верифікований шлях до розв’язання; це може бути не фінальна відповідь, але властиве йому «рішення з ракурсів, які люди навіть не пробували».
Паралельний розвиток із Claude for Life Sciences
BioMysteryBench і план Anthropic «Claude for Life Sciences», який рухається з другого півріччя 2025 року, спрямовані в одному напрямі. Останній орієнтується на конкретні сценарії застосування — розробку ліків, геноміку, дизайн клінічних випробувань тощо; перший же використовує методи оцінювання, щоб кількісно виміряти прогрес AI у «дослідницькому рівні» здібностей у сфері наук про життя. Сигнал, який дають разом обидва підходи, такий: Anthropic розглядає біомедицину як одну з ключових довгострокових ареною застосування Claude, конкуруючи з підходом DeepMind AlphaFold, але через інший вхід.
Цифра, що Mythos розв’язує майже 30% «задач, з якими експерти не впорались», якщо її вдасться відтворити в незалежній третій стороні, стане раннім практичним підтвердженням конкретної цінності AI-моделей у дослідницьких сценаріях. Подальші точки спостереження включають: чи буде BioMysteryBench прийнято іншими дослідницькими організаціями як стандарт оцінювання; процедури верифікації експертами-людьми для розв’язань; і чи зможе Mythos відтворювати результати тестів у реальних дослідницьких проєктах.
Ця стаття BioMysteryBench: Mythos розв’язує «задачі, з якими експерти не впорались» на 29,6% уперше з’явилася в 鏈新聞 ABMedia.
Related News
Anthropic веде переговори про фінансування за оцінкою понад 9 000 мільярдів доларів США, правління може ухвалити рішення вже в травні
Оксфордський інститут інтернету: дружнє навчання змушує ШІ підвищувати рівень помилок на 7,43 відсоткового пункту
Anthropic розглядає нове фінансування, оцінка перевищує OpenAI — як оцінка найдорожчого AI-стартапу
Дослідницький звіт a16z Crypto: рівень експлуатації вразливостей DeFi за допомогою AI-агентів досяг 70%
ЗМІ США: проєкт адміністративного розпорядження Білого дому дозволяє моделям Anthropic Mythos вийти в уряд