Xiaomi Lança o ControlFoley, Framework de Vídeo e Áudio Open-Source que Permite Controle Preciso de Som

Segundo Beating, a equipe de IA da Xiaomi lançou e abriu o código-fonte do ControlFoley, um framework de geração de áudio a partir de vídeo que oferece aos criadores um controle preciso do estilo do som por meio de descrições em texto ou áudio de referência. Diferentemente dos sistemas tradicionais de dublagem por IA que inferem o som apenas a partir das imagens, o ControlFoley permite que os criadores modifiquem características do áudio — como transformar uma batida na porta em um impacto metálico ou aplicar tons de bateria aos impactos de bolas de tênis — mantendo a sincronização entre áudio e vídeo. A estrutura usa um codificador áudio-visual no espaço-tempo com uma estratégia de desacoplamento de tempo e timbre. O relatório técnico do projeto, o código, os pesos dos modelos e a demonstração já estão disponíveis.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários