
Alibaba Qwen (千问) phát hành loạt mô hình Qwen3.7-Plus trong tuần này, mức giá đầu vào 0,40 USD/1 triệu token và đầu ra 1,60 USD/1 triệu token, tổng cộng 2,00 USD; mức giảm so với Qwen3.7-Max lên tới 80%. Giá đầu vào theo bộ nhớ đệm (cache) có thể thấp tới 0,04 USD/1 triệu token, hướng tới các tác vụ lặp lại có tần suất cao trong kịch bản mục tiêu.
Theo dữ liệu công bố về giá của Alibaba chính thức:
Đầu vào thông thường: 0,40 USD/1 triệu token
Đầu ra thông thường: 1,60 USD/1 triệu token
Tổng cộng (đầu vào + đầu ra): 2,00 USD
Đầu vào theo cache: 0,04 USD/1 triệu token (áp dụng cho kịch bản agent đọc lặp lại mã nguồn hoặc agent dựa trên UI doanh nghiệp theo cách truy cập lại nhiều lần)
Đối tượng so sánh: Qwen3.7-Max có đầu vào 2,50 USD, đầu ra 7,50 USD, tổng cộng 10,00 USD. Đối thủ Trung Quốc MiniMax-M3 trong thời gian giới hạn có chương trình khuyến mãi, tổng cộng 1,50 USD; giá Qwen3.7-Plus bám sát mức này.
Dưới đây là các số liệu benchmark cho Qwen3.7-Plus do Alibaba công bố chính thức, đều thuộc dữ liệu tự đánh giá:
Terminal Bench 2.0-Terminus: 70,3 (DeepSeek-V4-Pro Max là 67,9, Gemini-3.1 Pro là 63,5)
ScreenSpot Pro (tầm nhìn máy tính và hiểu giao diện): 79,0 (GPT-5.4 xhigh là 67,4, Claude-Opus-4.6 là 49,5)
Cần lưu ý rằng tài liệu chính thức của Alibaba cũng nêu rõ: nhìn chung, hiệu suất của Qwen3.7-Plus vẫn thấp hơn nhiều mô hình đóng cửa hàng đầu của Mỹ; các con số trên là so sánh đơn điểm cho các tác vụ cụ thể, không phản ánh toàn diện hiệu suất.
Qwen3.7-Plus không cung cấp trọng số mô hình mã nguồn mở có thể tải xuống; mọi lệnh gọi API đều cần thông qua các nút của Alibaba Cloud tại thị trường quốc tế xử lý, và dữ liệu chảy ra ngoài máy chủ do người dùng tự vận hành. Theo kiến trúc này, tồn tại các rào cản tuân thủ rõ ràng trong các tình huống sau:
Các ngành bị ràng buộc bởi chủ quyền dữ liệu hoặc quy định pháp luật: y tế (HIPAA, GDPR), quốc phòng, cơ quan chính phủ; cần đánh giá liệu việc định tuyến API bên ngoài có đáp ứng yêu cầu tuân thủ hay không
Kịch bản triển khai cô lập mạng nội bộ (intranet): không thể triển khai trong môi trường cục bộ hoàn toàn tách biệt
Ngược lại, ưu điểm của mô hình API đóng là không cần tự xây dựng cụm nhiều GPU (ví dụ Nvidia H100) như phần cứng mua sắm và vận hành, đồng thời định dạng tương thích với OpenAI giúp giảm chi phí thay đổi đối với hạ tầng hiện có ở mức thấp nhất.
Giá cache áp dụng cho các tình huống agent đọc đi đọc lại cùng một đầu vào, ví dụ truy cập liên tục cùng một kho mã nguồn, mẫu UI doanh nghiệp cố định hoặc các system prompt được duy trì trong thời gian dài. Trong các workflow quy mô lớn với tác vụ tần suất cao và tính lặp lại, cơ chế cache có thể giảm đáng kể tổng chi phí API. Alibaba chưa công bố cam kết cụ thể về tỉ lệ cache hit hoặc chi tiết các giới hạn sử dụng.
Trước đây, series Qwen được phát hành theo giấy phép Apache 2.0, cho phép tải xuống trọng số mô hình và cài đặt/triển khai cục bộ, fine-tune, tích hợp vào hệ thống của riêng bất kỳ ai. Qwen3.7-Plus chỉ cung cấp thông qua API của Alibaba Cloud, không phát hành trọng số mô hình; điều này đồng nghĩa không thể triển khai cục bộ hoặc trong mạng cách ly, và mọi việc sử dụng đều phụ thuộc vào hạ tầng bên ngoài của Alibaba Cloud.
Phần mô tả chính thức của Qwen3.7-Plus nêu rõ ràng rằng các bài chạy điểm như Terminal Bench và ScreenSpot Pro đều là số liệu do chính Alibaba tự đánh giá, và nhìn chung hiệu suất vẫn thấp hơn các mô hình đóng cửa hàng đầu của Mỹ. Các con số benchmark phản ánh hiệu năng đơn điểm theo các tác vụ cụ thể, không đại diện cho độ trễ end-to-end thực tế trong môi trường sản xuất, độ ổn định hay hiệu suất toàn diện.
Tin tức liên quan
Microsoft Build ra mắt 7 mẫu AI, lượng token ít hơn đối thủ cạnh tranh 60%
Cổ phiếu Cisco tăng 5% trong một ngày, mục tiêu đơn hàng AI lên tới 9 tỷ USD
Google ra mắt $80B huy động vốn cổ phần$10B với Berkshire Investment
Chi tiết thương hiệu Snapdragon Dragonfly được hoãn tới ngày 24 tháng 6, giá cổ phiếu trước giờ mở cửa giảm hơn 8%