Trong lĩnh vực phát triển mô hình AI, việc huấn luyện các mô hình ngôn ngữ lớn từ trước đến nay thường đòi hỏi phần cứng đắt đỏ và tài nguyên điện toán đám mây, khiến công nghệ này tập trung vào tay một số tổ chức lớn.
(Nguồn: Tether)
Việc Tether vừa ra mắt QVAC Fabric đã giới thiệu một khung tinh chỉnh LoRA mới dành riêng cho BitNet (mô hình ngôn ngữ lớn 1-bit). Đột phá này giúp giảm mạnh yêu cầu về tính toán và bộ nhớ, mở ra cơ hội cho người dùng phổ thông tham gia vào quá trình huấn luyện mô hình AI.
Một ưu điểm nổi bật của QVAC Fabric là khả năng tương thích phần cứng rộng rãi. Khung này vận hành trên nhiều thiết bị khác nhau, bao gồm:
Máy tính xách tay
GPU phổ thông (Intel, AMD, Apple Silicon)
Điện thoại thông minh (bao gồm nhiều loại GPU di động)
Điều này đồng nghĩa với việc các mô hình AI không còn bị giới hạn trong trung tâm dữ liệu hoặc phần cứng chuyên dụng—giờ đây có thể được huấn luyện và vận hành trực tiếp trên các thiết bị sử dụng hàng ngày.
Một trong những điểm nổi bật của công nghệ này là khả năng tinh chỉnh mô hình ngay trên thiết bị di động.
Ví dụ:
Trên Samsung S25 (GPU Adreno), một mô hình 125 triệu tham số có thể được tinh chỉnh trong khoảng 10 phút
Trên cùng thiết bị, một mô hình 1 tỷ tham số mất khoảng 1 giờ 18 phút
Trên iPhone 16, một mô hình 1 tỷ tham số cần khoảng 1 giờ 45 phút
Đội ngũ phát triển thậm chí đã vận hành thành công các mô hình lên đến 13 tỷ tham số trên điện thoại thông minh, cho thấy năng lực AI của phần cứng di động đang tăng trưởng nhanh chóng.
So với các mô hình truyền thống, kiến trúc BitNet thể hiện rõ ưu thế về hiệu năng và hiệu quả sử dụng tài nguyên:
Tốc độ suy luận trên GPU di động nhanh hơn CPU từ 2 đến 11 lần
Có thể xử lý các tác vụ từng yêu cầu trung tâm dữ liệu
Giảm sử dụng VRAM lên đến khoảng 77,8% so với mô hình 16-bit
Tăng khả năng vận hành, hỗ trợ các mô hình lớn hơn và ứng dụng cá nhân hóa
Những cải tiến này giúp việc triển khai ứng dụng AI trên thiết bị đầu cuối trở nên đơn giản hơn rất nhiều.
Huấn luyện AI truyền thống phụ thuộc lớn vào phần cứng NVIDIA và các dịch vụ đám mây. QVAC Fabric đã phá vỡ sự phụ thuộc này khi cho phép tinh chỉnh LoRA LLM 1-bit trên phần cứng không phải NVIDIA—bao gồm AMD, Intel, Apple Silicon và các GPU di động như Adreno, Mali. Sự chuyển đổi này không chỉ giúp giảm chi phí mà còn thúc đẩy một hệ sinh thái phát triển AI phi tập trung hơn.
Một lợi ích quan trọng khác của QVAC Fabric là hỗ trợ bảo mật dữ liệu và học liên kết phân tán:
Việc huấn luyện mô hình có thể thực hiện tại chỗ, không cần tải dữ liệu nhạy cảm lên mạng
Hỗ trợ học liên kết (federated learning)
Giảm sự phụ thuộc vào hạ tầng tập trung
Những đặc điểm này mở ra hướng đi an toàn và có khả năng mở rộng cho hệ sinh thái AI trong tương lai.
Paolo Ardoino nhận định AI sẽ đóng vai trò then chốt trong xã hội tương lai, và sự phát triển của nó không nên bị độc quyền bởi một nhóm nhỏ sở hữu tài nguyên. Ông nhấn mạnh rằng việc quá phụ thuộc vào kiến trúc tập trung cho huấn luyện AI không chỉ kìm hãm đổi mới mà còn đe dọa sự ổn định của toàn hệ sinh thái. Việc cho phép AI vận hành trên thiết bị cá nhân vì thế là bước đi quan trọng hướng tới phổ cập rộng rãi.
QVAC Fabric của Tether không chỉ là một đổi mới công nghệ mà còn có tiềm năng thay đổi mô hình phát triển AI. Bằng cách hạ thấp rào cản phần cứng và tăng cường khả năng đa nền tảng, các mô hình ngôn ngữ lớn đang dần rời khỏi trung tâm dữ liệu để xuất hiện trên các thiết bị hàng ngày. Khi công nghệ tiếp tục phát triển, AI đang hướng đến một tương lai mở, phi tập trung và dễ tiếp cận hơn bao giờ hết.





