OpenAI 7 травня (за часом США) на конференції для розробників оголосила про три нові Realtime-моделі: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper — усі вони доступні розробникам через Realtime API. В офіційному анонсі OpenAI зазначено, що GPT-Realtime-2 — це перша мовна модель OpenAI з рівнем міркувань, еквівалентним GPT-5, здатна миттєво міркувати в голосових діалогах, викликати інструменти, обробляти виправлення та підтримувати природний темп розмови.

GPT-Realtime-2：context з 32K зросла до 128K, п’ять рівнів сили міркувань можна налаштовувати

Ключові оновлення GPT-Realtime-2：

context window: з 32K до 128K tokens

Сила міркувань, що налаштовується: minimal, low, medium, high, xhigh — п’ять рівнів

Тести Big Bench Audio: high дає 96,6%, у попередньої GPT-Realtime-1.5 — 81,4%

Audio MultiChallenge дотримання інструкцій: xhigh дає 48,5%, у попередньої — 34,7%

Більший context і можливість регулювати силу міркувань дозволяють розробникам перемикатися між «дешево й швидко» та «глибоким мисленням» залежно від сценарію: простий сапорт можна вести в minimal-режимі, щоб контролювати витрати, а складні задачі переключати на xhigh, щоб отримати якість міркувань на рівні GPT-5.

Одночасно випущено дві спеціалізовані моделі: Translate для перекладу між мовами, Whisper для миттєвого транскрибування.

У цьому випуску три нові моделі розподіляють ролі так:

GPT-Realtime-Translate：миттєвий переклад багатомовної голосової мови, підтримує 70 мов для введення та 13 мов для виводу

GPT-Realtime-Whisper：низьколатентне стримінгове транскрибування, текст з’являється під час мовлення; підходить для миттєвих субтитрів, записів зустрічей і покрокових розшифровок у класі

GPT-Realtime-2：повноцінний діалоговий Agent, здатний до міркувань, використовує інструменти та виконує дії

Translate та Whisper — це спеціалізація під конкретні голосові застосунки: у них вища чутливість до затримки та вартості, ніж у універсальних діалогів; використання окремих моделей дає змогу оптимізувати власні метрики.

Ціноутворення: GPT-Realtime-2 — 32 долари за кожен мільйон входів, 64 долари за кожен мільйон виводів

Структура цін для трьох моделей:

GPT-Realtime-2：32 долари за кожен мільйон аудіовходів, cached-входи 0,40 долара, вивід — 64 долари

GPT-Realtime-Translate：0,034 долара за хвилину

GPT-Realtime-Whisper：0,017 долара за хвилину

Події, за якими можна буде стежити надалі: реальне впровадження GPT-Realtime-2 у продакшн для голосових Agent, ступінь cannibalization відносно наявних голосових моделей GPT-4o, а також реакції конкурентів на кшталт Anthropic і Google.

Ця стаття про те, як OpenAI просуває GPT-Realtime-2: «внести міркування GPT-5 у голосові Agent, підняти context до 128K», уперше з’явилася в ABMedia на Х (ланцюг новин).

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-08 02:01

OpenAI перемикає ChatGPT на модель GPT-5.5 за замовчуванням миттєво, зменшує галюцинації на 52,5%

05-08 01:25

OpenAI випустила три голосові моделі в Realtime API; GPT-Realtime-2 має вікно контексту на 128K

05-08 00:08

OpenAI запускає модель GPT-5.5-Cyber і фреймворк Trusted Access для кіберзахисників

Пов'язані статті

NVIDIA представила Nemotron 3 Nano Omni — відкриту мультимодальну модель

ChainNewsAbmedia05-07 10:56

DevDay 2026 від OpenAI відбудеться 29/9 у Сан-Франциско

ChainNewsAbmedia05-07 10:51