OpenAI випускає GPT-Realtime-2: інтегрує міркування GPT-5 у голосових агентів, а context збільшує до 128K

OpenAI 7 травня (за часом США) на конференції для розробників оголосила про три нові Realtime-моделі: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper — усі вони доступні розробникам через Realtime API. В офіційному анонсі OpenAI зазначено, що GPT-Realtime-2 — це перша мовна модель OpenAI з рівнем міркувань, еквівалентним GPT-5, здатна миттєво міркувати в голосових діалогах, викликати інструменти, обробляти виправлення та підтримувати природний темп розмови.

GPT-Realtime-2:context з 32K зросла до 128K, п’ять рівнів сили міркувань можна налаштовувати

Ключові оновлення GPT-Realtime-2:

context window: з 32K до 128K tokens

Сила міркувань, що налаштовується: minimal, low, medium, high, xhigh — п’ять рівнів

Тести Big Bench Audio: high дає 96,6%, у попередньої GPT-Realtime-1.5 — 81,4%

Audio MultiChallenge дотримання інструкцій: xhigh дає 48,5%, у попередньої — 34,7%

Більший context і можливість регулювати силу міркувань дозволяють розробникам перемикатися між «дешево й швидко» та «глибоким мисленням» залежно від сценарію: простий сапорт можна вести в minimal-режимі, щоб контролювати витрати, а складні задачі переключати на xhigh, щоб отримати якість міркувань на рівні GPT-5.

Одночасно випущено дві спеціалізовані моделі: Translate для перекладу між мовами, Whisper для миттєвого транскрибування.

У цьому випуску три нові моделі розподіляють ролі так:

GPT-Realtime-Translate:миттєвий переклад багатомовної голосової мови, підтримує 70 мов для введення та 13 мов для виводу

GPT-Realtime-Whisper:низьколатентне стримінгове транскрибування, текст з’являється під час мовлення; підходить для миттєвих субтитрів, записів зустрічей і покрокових розшифровок у класі

GPT-Realtime-2:повноцінний діалоговий Agent, здатний до міркувань, використовує інструменти та виконує дії

Translate та Whisper — це спеціалізація під конкретні голосові застосунки: у них вища чутливість до затримки та вартості, ніж у універсальних діалогів; використання окремих моделей дає змогу оптимізувати власні метрики.

Ціноутворення: GPT-Realtime-2 — 32 долари за кожен мільйон входів, 64 долари за кожен мільйон виводів

Структура цін для трьох моделей:

GPT-Realtime-2:32 долари за кожен мільйон аудіовходів, cached-входи 0,40 долара, вивід — 64 долари

GPT-Realtime-Translate:0,034 долара за хвилину

GPT-Realtime-Whisper:0,017 долара за хвилину

Події, за якими можна буде стежити надалі: реальне впровадження GPT-Realtime-2 у продакшн для голосових Agent, ступінь cannibalization відносно наявних голосових моделей GPT-4o, а також реакції конкурентів на кшталт Anthropic і Google.

Ця стаття про те, як OpenAI просуває GPT-Realtime-2: «внести міркування GPT-5 у голосові Agent, підняти context до 128K», уперше з’явилася в ABMedia на Х (ланцюг новин).

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів