Розбір Berkeley GEPA: без оновлення ваг AI може навчитися новим завданням, знизивши витрати на тренування в 35 разів проти RL

2026-05-02 05:48:17

Каліфорнійський університет у Берклі представив новий метод навчання AI — GEPA, який уже прийнято ICLR 2026 як Oral-публікацію. GEPA не оновлює ваги моделі, не потребує тренувань із GPU: достатньо одного LLM, який багаторазово переписує підказки AI-системи, спираючись на «читання тренувальних записів». У 6 завданнях GEPA в середньому випереджає популярні методи підкріплювального навчання GRPO на 6%, а в найкращому випадку — на 20%. Кількість необхідних тренувальних спроб (rollouts) менша у 35 разів. Після того як дослідження, зібране AI-інженерною спільнотою, поширили у X, воно викликало жваве обговорення; нині GEPA інтегровано в DSPy як оптимізатор першого класу.

Що робить GEPA: використовує тренувальні записи як навчальні матеріали, а не лише дивиться на бали

Традиційні методи підкріплювального навчання (наприклад, GRPO) працюють так: AI один раз запускають виконувати завдання, за результатом дають оцінку «+1 або -1», а далі ці бали багаторазово використовують для корекції ваг моделі. Проблема в тому, що під час виконання завдання процес AI зазвичай містить тисячі токенів міркувань, виклики інструментів, повідомлення про помилки — усі ці багаті деталі стискаються до одного числа, а інформація про хід процесу губиться. Тому RL доводиться запускати десятки тисяч разів, щоб досягти збіжності.

GEPA робить навпаки: після кожного запуску завдання AI передає іншому «LLM для рефлексії» весь перебіг процесу (reasoning, виклики інструментів, записи про помилки) без змін. LLM для рефлексії працює як досвідчений інженер, який читає log виконання: він знаходить, на якому кроці сталася помилка, чому вона сталася, і як слід змінити підказку, а потім безпосередньо переписує промпт для відповідного модуля. За однакової кількості запусків GEPA витягує значно більше корисних сигналів, ніж RL із його одиничним числом-оцінкою.

Чому виходить краще: перетворює «оцінювання» на «читання всього перебігу»

GEPA у 6 завданнях у середньому перемагає GRPO на 6%, а в найкращому випадку — на 20%. У порівнянні з іншим популярним оптимізатором підказок MIPROv2 GEPA також випереджає на понад 10% (на базі математичних задач AIME-2025 підвищення на 12%). Найкритичніше — вартість навчання: щоб досягти зіставної продуктивності, GEPA потрібно набагато менше rollouts (один повний запуск завдання) — у 35 разів.

Інші дані: після інтеграції GEPA з DSPy «Full Program Adapter» може оптимізувати весь DSPy-програмний код (включно із signature, модулями та керуванням потоком), і на математичному бенчмарку MATH досягає 93% точності — суттєво більше за початковий варіант DSPy з ChainOfThought, який має 67%. GEPA також особливо добре показує себе в multi-module робочих процесах (AI-agent із послідовним з’єднанням кількох модулів): він точніше «фокусується» на конкретному модулі, що дає помилку, і переписує підказку саме для нього, замість того щоб коригувати весь системний контур.

Хто першим почне використовувати: DSPy як громадянин першого класу, GitHub уже відкрив код

Код GEPA відкрито на GitHub: його інтегровано в DSPy як dspy.GEPA, а також окремо опубліковано як Python library. Дослідницька команда представлена в UC Berkeley, Stanford, Notre Dame, Anthropic та інших організаціях; серед авторів paper є Matei Zaharia (співзасновник Databricks, один із ключових авторів DSPy) та Omar Khattab (один із ключових авторів DSPy).

Для спільноти розробників GEPA пропонує новий підхід до проблеми «маємо багато rollout, але не знаємо, як їх використати»: більшість команд уже накопичила тисячі й десятки тисяч записів про запуски agent для виконання задач, але, окрім перегляду кількох прикладів під час баг-дебагу, немає системного способу перетворити ці записи на покращення моделі. Наступний пункт спостереження — як GEPA буде впроваджуватися в реальних корпоративних agentic-робочих процесах (наприклад, автоматизація клієнтської підтримки чи автопочинка програм), і чи з’являться незалежні від DSPy реалізації GEPA.

Ця стаття «Berkeley GEPA розбір»: без оновлення ваг AI вчиться виконувати нові завдання, потребуючи в 35 разів менше тренувань, ніж RL, — була опублікована найпершою на платформі «ланцюгових новин» ABMedia.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-02 01:21

Пентагон підписує угоди з AI-компаніями з 8 компаніями, виключає Anthropic із доступу до секретної мережі Level Network

05-01 03:29

66,3% працівників США з високими доходами використовують інструменти ШІ на роботі, показує опитування Федеральної резервної системи

04-30 23:33

OpenClaw випускає v2026.4.29 29 квітня та оновлює пам’ять до персоналізованої вікі з відстеженням зв’язків

Пов'язані статті

OpenAI опублікувала дані за перший тиждень роботи GPT-5.5: темпи зростання доходів від API досягли рекорду, Codex виріс удвічі

ChainNewsAbmedia05-02 05:44

Оцінка AISI: можливості GPT-5.5 щодо мережевих атак на рівні з Anthropic Mythos

ChainNewsAbmedia05-02 03:16

Коли ви питаєте Клода про найважливіші справи в житті: проблеми в стосунках 25%, духовність 38%… відсоток улесливості

ChainNewsAbmedia05-01 09:15

У Сполучених Штатах трудове відомство запустило портал для AI-учнів, щоб допомагати компаніям навчати кадри

ChainNewsAbmedia05-01 01:45

Генеральний директор Google Пічаї розкрив, що за допомогою Gemini AI він прагне осягнути людську природу та вибудувати більш щирі комунікації

ChainNewsAbmedia04-30 20:44

Прокоментувати

0/400

Немає коментарів