Beating, Resemble AI выпустила DramaBox, модель генерации речи, на Hugging Face сегодня. Модель отличается управляемостью на уровне режиссёра благодаря разделённому синтаксису подсказок: пользователи вводят реплики в кавычках, указывая при этом сценические ремарки вроде вздохов, пауз или шёпота вне кавычек. Модель превращает эти ремарки в эмоционально окрашенную речь, а не зачитывает их вслух.

DramaBox поддерживает zero-shot клонирование голоса всего по 10 секундам референсного аудио и позволяет задавать возраст персонажа, акцент и эмоции через подсказки на естественном языке. Выходной сигнал — аудио студийного качества в стерео с частотой 48 кГц. Всё сгенерированное аудио включает невидимый водяной знак Perth, устойчивый к MP3-сжатию, а также стандартные аудиоредакторские инструменты, чтобы предотвратить злоупотребление глубокими подделками.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.