OpenAI 7 травня (за часом США) на конференції для розробників оголосила про три нові Realtime-моделі: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper — усі вони доступні розробникам через Realtime API. В офіційному анонсі OpenAI зазначено, що GPT-Realtime-2 — це перша мовна модель OpenAI з рівнем міркувань, еквівалентним GPT-5, здатна миттєво міркувати в голосових діалогах, викликати інструменти, обробляти виправлення та підтримувати природний темп розмови.
GPT-Realtime-2:context з 32K зросла до 128K, п’ять рівнів сили міркувань можна налаштовувати
Ключові оновлення GPT-Realtime-2:
context window: з 32K до 128K tokens
Сила міркувань, що налаштовується: minimal, low, medium, high, xhigh — п’ять рівнів
Тести Big Bench Audio: high дає 96,6%, у попередньої GPT-Realtime-1.5 — 81,4%
Audio MultiChallenge дотримання інструкцій: xhigh дає 48,5%, у попередньої — 34,7%
Більший context і можливість регулювати силу міркувань дозволяють розробникам перемикатися між «дешево й швидко» та «глибоким мисленням» залежно від сценарію: простий сапорт можна вести в minimal-режимі, щоб контролювати витрати, а складні задачі переключати на xhigh, щоб отримати якість міркувань на рівні GPT-5.
Одночасно випущено дві спеціалізовані моделі: Translate для перекладу між мовами, Whisper для миттєвого транскрибування.
У цьому випуску три нові моделі розподіляють ролі так:
GPT-Realtime-Translate:миттєвий переклад багатомовної голосової мови, підтримує 70 мов для введення та 13 мов для виводу
GPT-Realtime-Whisper:низьколатентне стримінгове транскрибування, текст з’являється під час мовлення; підходить для миттєвих субтитрів, записів зустрічей і покрокових розшифровок у класі
GPT-Realtime-2:повноцінний діалоговий Agent, здатний до міркувань, використовує інструменти та виконує дії
Translate та Whisper — це спеціалізація під конкретні голосові застосунки: у них вища чутливість до затримки та вартості, ніж у універсальних діалогів; використання окремих моделей дає змогу оптимізувати власні метрики.
Ціноутворення: GPT-Realtime-2 — 32 долари за кожен мільйон входів, 64 долари за кожен мільйон виводів
Структура цін для трьох моделей:
GPT-Realtime-2:32 долари за кожен мільйон аудіовходів, cached-входи 0,40 долара, вивід — 64 долари
GPT-Realtime-Translate:0,034 долара за хвилину
GPT-Realtime-Whisper:0,017 долара за хвилину
Події, за якими можна буде стежити надалі: реальне впровадження GPT-Realtime-2 у продакшн для голосових Agent, ступінь cannibalization відносно наявних голосових моделей GPT-4o, а також реакції конкурентів на кшталт Anthropic і Google.
Ця стаття про те, як OpenAI просуває GPT-Realtime-2: «внести міркування GPT-5 у голосові Agent, підняти context до 128K», уперше з’явилася в ABMedia на Х (ланцюг новин).