XAI Grok представив Custom Voices: 2-хвилинне клонування та двоетапну перевірку особи

xAI 2 травня представила у своєму офіційному блозі функцію Grok Custom Voices: користувачам достатньо записати в контрольній панелі xAI приблизно 1 хвилину природного голосу, система обробить це протягом 2 хвилин і створить кастомну голосову модель, яку можна використовувати для TTS та Voice Agent API. Паралельно вийшли модель Grok 4.3 і інтерфейс Voice Library, який агрегує всі голосові ресурси. Custom Voices також передбачає дворівневий механізм перевірки ідентичності, щоб запобігти клонуванню чужого голосу.

Функції: запис 1 хвилина, генерація 2 хвилини, інтеграція TTS та Voice Agent API

Користувач у контрольній панелі xAI записує приблизно 1 хвилину природного голосу, після чого у бекенді по черзі виконуються такі етапи: (1) перевірка ідентичності, (2) обробка голосу, (3) створення моделі. Загалом за 2 хвилини можна отримати готову для використання голосову модель. Custom Voices успадковує всі можливості TTS, зокрема speech tags (голосові теги), багатомовний вивід, а також REST і WebSocket-стрімінг; її можна напряму поєднувати з TTS-ендпойнтами xAI або Voice Agent API для миттєвих діалогів із агентом.

Паралельно представлено Voice Library — уніфікований інтерфейс керування голосовими ресурсами в контрольній панелі xAI: його можна переглядати, попередньо прослуховувати та адмініструвати всі голоси, створені користувачами, а також попередньо підготовлені, щоб уникнути розпорошення ресурсів по кількох інтерфейсах. Попередньо підготовлена бібліотека голосів містить понад 80 варіантів і підтримує 28 мов.

Дворівнева перевірка ідентичності: запобігання клонуванню чужого голосу

Перед генерацією голосу в Custom Voices налаштовано дві перевірки ідентичності: перша — користувач зачитує фразу для верифікації, а система миттєво транскрибує цей фрагмент; друга — система окремо розраховує speaker embedding (векторні характеристики мовця) для фрази верифікації та для повного запису, а потім порівнює, чи належать обидва до однієї й тієї самої людини. Лише після проходження обох етапів користувачеві відкривається процес створення голосової моделі.

xAI чітко заявляє: користувач не може клонувати голос, використовуючи наявні аудіозаписи, а також не може клонувати голос іншої людини. Цей підхід прибирає сценарій «отримати чужий публічний виступ і просто скопіювати його», обмежуючи клонування рамками одного входу — «користувач сам здійснює миттєвий запис». Для спостерігачів, які звертають увагу на проблему зловживань генерацією AI-голосів (наприклад, телефонне шахрайство або озвучування без дозволу), ця механіка є конкретною відповіддю xAI на питання протидії підробкам.

Подальші спостереження: запуск разом із Grok 4.3, розширення ритму у Voice Library

Custom Voices і модель Grok 4.3 вийшли в один день, і xAI прив’язує «оновлення моделі + повне розгортання голосових інструментів» до тієї ж хвилі релізів. Наступним пунктом для спостереження є темп розширення попередньо підготовленої бібліотеки голосів у Voice Library понад 80 варіантів, а також чи зможе карта 28 мов додатково охопити такі мови, як традиційна китайська; ще один пункт — чи стануть публічними конкретні кейси застосування Voice Agent API, зокрема приклади інтеграції для автоматизації клієнтської підтримки, запису podcast, багатомовного сервісу клієнтів тощо.

Ця стаття xAI Grok представила Custom Voices: клонування за 2 хвилини, дворівнева перевірка ідентичності вперше з’явилася на сайті 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів