Професор Вартонської школи бізнесу Пенсильванського університету Ethan Mollick у дописі на платформі X від 25.04 зробив спостереження, яке сильно впливає на наукову спільноту: сучасні AI-agent уже можуть незалежно відтворювати складні результати академічних досліджень лише на основі публічно описаних методів і даних — без оригінальних статей і без вихідного коду. Далі Mollick зазначив, що коли AI-відтворені версії відрізняються від оригінальних статей, «помилки часто трапляються в самих людських текстах, а не в AI». Це є суттєвим поворотом у кризі відтворюваності досліджень у епоху генеративного AI: те, що раніше вимагало дорогих людських зусиль для перевірки колегами, тепер виконується AI у великих масштабах і з низькою вартістю.
Claude відтворює кілька статей, а потім GPT-5 Pro робить двічі перевірку
У своєму блозі OneUsefulThing та в цьому твіті Mollick описує конкретний експеримент із Claude: він дає Claude академічну статтю, щоб той відкрив архів, упорядкував файли, автоматично перетворив STATA-код для статистики на Python, а потім послідовно виконав усі висновки, наведені в статті. Після завершення роботи Claude він проводить другий раунд перевірки за допомогою GPT-5 Pro для того самого результату відтворення. Кілька статей тестувалися так само, і результати загалом були успішними — перешкоди виникали лише тоді, коли файли даних були надто великими або коли самі replication data мали проблеми.
Для наукової спільноти цей процес раніше зазвичай потребував того, щоб дослідницькі асистенти витрачали тижні або навіть місяці. Mollick описує часовий масштаб від одного дня до одного дня, а вартість виконання — лише токенові витрати комерційного LLM API.
Багато помилок — у людських першоджерелах, а не в AI
Більш суперечливим є те, як Mollick визначає, «хто винен». У своєму твіті він прямо заявив, що коли результати AI-відтворення не відповідають оригінальній статті, у більшості випадків це не помилка AI, а помилки в обробці даних у статті, неправильне використання моделі або вихід висновків за межі того, що підкріплюється даними. У психології, поведінковій економіці, менеджменті та інших соціальних науках за останнє десятиліття вже було кілька серйозних подій із кризами відтворюваності; найбільш відомий — велике відтворювальне дослідження Open Science Collaboration у 2015 році, в якому лише близько 36% результатів психологічних статей вдалося незалежно відтворити. AI-agent переносить межу перевірки з «потрібного підбору людських ресурсів» на «здатність виконуватися повсюдно».
Вчитися все ще забороняють AI в рецензування, а інституції відстають від техніки
У іншому твіті від 25.04 Mollick конкретно вказує на те, що найбільше в його галузі найбільше товариство — Академія менеджменту (Academy of Management) — досі чітко забороняє AI входити в процес рецензування рукописів. Він посилається на вже наявні дослідження, які показують, що AI-рецензування вже краще, ніж частина традиційних людських рецензентів, за точністю, узгодженістю та контролем упередженості, тому позиція «заборонити» може навпаки посилити збої в існуючих системах рецензування. Розрив між такими інституційними правилами та технологією — це політичне питання, з яким у найближчі 1–2 роки мають зіткнутися наукові видавництва, наукові товариства та фінансувальні організації.
Для читачів ця дискусія не обмежується академічною сферою. Коли AI-agent здатен у реальному часі перевіряти результати досліджень, у бізнес-середовищі посилання на дослідження, політичні звіти та академічні підстави в ухваленні фінансових рішень перейдуть у новий критерій перевірки — «чи витримують висновки незалежне AI-відтворення». Відповідаючи на доповнення в іншому твіті Mollick, він вважає, що уряд є єдиною одиницею, яка може поставити «якорь» для розробки правил перевірки, коли інтенсивність інструментів постійно зростає, — а складність політичного дизайну синхронно стане відносно непомітним головним напрямом у обговореннях AI-врядування.
Ця стаття: AI Agent уже може незалежно відтворювати складні академічні статті: Mollick називає, що більшість помилок — у людських першоджерелах, а не в AI. Вперше з’явилося в 鏈新聞 ABMedia.
Related News
Anthropic 二级市场估值突破 1 万亿美元:Forge Global 反超 OpenAI 的 8,800 亿
OpenAI 推 GPT-5.5:12M контекст, AA індекс на першому місці, Terminal-Bench 82.7% переписує агентський бенчмарк
Anthropic самостійно викриває: у Claude Code 3 баги нашаровуються: зниження рівня міркувань, забування кешу, «25-символьна» інструкція шкодить
Провідні юридичні фірми беруть понад дві тисячі доларів США за годину, судові документи були викриті «AI-галюцинаціями та суцільними помилками»
Колективне забруднення AI-движка для відповідей: у правильних відповідях Gemini 3 56% не мають підтримки з джерел