Beating, Resemble AI выпустила DramaBox, модель генерации речи, на Hugging Face сегодня. Модель отличается управляемостью на уровне режиссёра благодаря разделённому синтаксису подсказок: пользователи вводят реплики в кавычках, указывая при этом сценические ремарки вроде вздохов, пауз или шёпота вне кавычек. Модель превращает эти ремарки в эмоционально окрашенную речь, а не зачитывает их вслух.
DramaBox поддерживает zero-shot клонирование голоса всего по 10 секундам референсного аудио и позволяет задавать возраст персонажа, акцент и эмоции через подсказки на естественном языке. Выходной сигнал — аудио студийного качества в стерео с частотой 48 кГц. Всё сгенерированное аудио включает невидимый водяной знак Perth, устойчивый к MP3-сжатию, а также стандартные аудиоредакторские инструменты, чтобы предотвратить злоупотребление глубокими подделками.
Related News
OpenAI добавила обнаружение кризисных диалогов в ChatGPT, улучшив способность предупреждать о самоповреждающем насилии
WhatsApp запускает бесследные чаты с Meta AI, исчезновение сообщений автоматически вызывает опасения по поводу механизма подотчётности
Mistral AI ведёт переговоры с европейским банком о разработке Mythos — замены сетевой модели безопасности