Xiaomi lance ControlFoley, un framework open-source de vidéo et d’audio permettant un contrôle précis du son

D'après Beating, l'équipe d'IA de Xiaomi a publié et open-sourcé ControlFoley, un cadre de génération audio à partir de vidéos qui offre aux créateurs un contrôle précis du style sonore via des descriptions textuelles ou de l'audio de référence. Contrairement aux systèmes traditionnels de doublage par IA qui déduisent le son uniquement à partir des images, ControlFoley permet aux créateurs de modifier les caractéristiques audio — comme transformer un coup à la porte en un impact métallique ou appliquer des sonorités de batterie aux impacts de balles de tennis — tout en conservant la synchronisation audio-vidéo. Le framework utilise un encodeur audio-vidéo spatio-temporel avec une stratégie de découplage temps-timbre. Le rapport technique du projet, le code, les poids des modèles et la démo sont désormais disponibles.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire