Xiaomi Phát hành ControlFoley, Khung mã nguồn mở để điều khiển âm thanh video chính xác

Theo Beating, nhóm AI của Xiaomi đã phát hành và mã nguồn mở ControlFoley, một khung tạo video âm thanh (video audio generation) cho phép nhà sáng tạo kiểm soát chính xác phong cách âm thanh thông qua mô tả bằng văn bản hoặc âm thanh tham chiếu. Không giống các hệ thống AI lồng tiếng truyền thống chỉ suy luận âm thanh từ hình ảnh, ControlFoley cho phép nhà sáng tạo chỉnh sửa các đặc tính âm thanh—chẳng hạn chuyển tiếng gõ cửa thành lực gõ kim loại hoặc áp âm sắc trống lên các cú chạm bóng tennis—trong khi vẫn duy trì đồng bộ âm thanh-hình ảnh. Khung này sử dụng bộ mã hóa âm thanh-hình ảnh theo thời gian-không gian với chiến lược tách rời thời gian và âm sắc. Báo cáo kỹ thuật của dự án, mã nguồn, trọng số mô hình và bản demo hiện đã được công bố.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận