Quét để tải ứng dụng Gate
qrCode
Thêm tùy chọn tải xuống
Không cần nhắc lại hôm nay

Chạy mô hình AI mã nguồn mở cục bộ của riêng bạn rất dễ dàng—Dưới đây là cách thực hiện

Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.


Khám phá SCENE

>>>> gd2md-html cảnh báo: liên kết hình ảnh theo dòng trong mã nguồn được tạo và lưu hình ảnh vào máy chủ của bạn. LƯU Ý: Hình ảnh trong tệp zip xuất khẩu từ Google Tài liệu có thể không xuất hiện theo cùng một thứ tự như trong tài liệu của bạn. Vui lòng kiểm tra các hình ảnh!

----->

Nếu bạn không phải là nhà phát triển, thì tại sao bạn lại muốn chạy một mô hình AI mã nguồn mở trên máy tính cá nhân của mình?

Hóa ra có rất nhiều lý do hợp lý. Và với các mô hình miễn phí, mã nguồn mở ngày càng tốt hơn - và dễ sử dụng, với yêu cầu phần cứng tối thiểu - bây giờ là thời điểm tuyệt vời để thử nghiệm.

Dưới đây là một vài lý do tại sao các mô hình mã nguồn mở lại tốt hơn việc trả $20 một tháng cho ChatGPT, Perplexity hoặc Google:

  • Nó miễn phí. Không có phí đăng ký.
  • Dữ liệu của bạn vẫn ở trên máy của bạn.
  • Nó hoạt động ngoại tuyến, không cần internet.
  • Bạn có thể huấn luyện và tùy chỉnh mô hình của mình cho các trường hợp sử dụng cụ thể, chẳng hạn như viết sáng tạo hoặc… ồ, bất cứ điều gì.

Rào cản gia nhập đã biến mất. Giờ đây có những chương trình chuyên biệt cho phép người dùng thử nghiệm với AI mà không gặp phải tất cả những phiền phức của việc cài đặt thư viện, phụ thuộc và plugin một cách độc lập. Hầu như bất kỳ ai có một chiếc máy tính tương đối mới đều có thể làm điều đó: Một chiếc laptop hoặc máy tính để bàn tầm trung với 8GB bộ nhớ video có thể chạy những mô hình mạnh mẽ một cách bất ngờ, và một số mô hình có thể chạy trên 6GB hoặc thậm chí 4GB VRAM. Và đối với Apple, bất kỳ chip M-series nào ( trong vài năm qua ) đều có thể chạy các mô hình tối ưu hóa.

Phần mềm miễn phí, việc cài đặt chỉ mất vài phút, và bước đáng sợ nhất—chọn công cụ nào để sử dụng—chỉ đơn giản là một câu hỏi: Bạn thích nhấp chuột hay gõ lệnh?

LM Studio so với Ollama

Hai nền tảng thống trị không gian AI địa phương, và họ tiếp cận vấn đề từ hai góc độ đối lập.

LM Studio bao bọc mọi thứ trong một giao diện đồ họa tinh tế. Bạn chỉ cần tải ứng dụng, duyệt thư viện mô hình tích hợp sẵn, nhấp để cài đặt và bắt đầu trò chuyện. Trải nghiệm giống như sử dụng ChatGPT, ngoại trừ việc xử lý diễn ra trên phần cứng của bạn. Người dùng Windows, Mac và Linux đều có được trải nghiệm mượt mà như nhau. Đối với những người mới, đây là điểm khởi đầu rõ ràng.

Ollama nhắm đến các nhà phát triển và người dùng mạnh mẽ sống trong terminal. Cài đặt qua dòng lệnh, tải mô hình chỉ với một lệnh, và sau đó lập trình hoặc tự động hóa theo ý thích của bạn. Nó nhẹ, nhanh và tích hợp sạch sẽ vào quy trình làm việc lập trình.

Đường cong học tập dốc hơn, nhưng phần thưởng là sự linh hoạt. Đây cũng là điều mà những người dùng chuyên nghiệp chọn vì tính đa dạng và tùy biến.

Cả hai công cụ đều chạy cùng một mô hình cơ sở với các động cơ tối ưu hóa giống hệt nhau. Sự khác biệt về hiệu suất là không đáng kể.

Cài đặt LM Studio

Truy cập và tải xuống trình cài đặt cho hệ điều hành của bạn. Tệp có kích thước khoảng 540MB. Chạy trình cài đặt và làm theo hướng dẫn. Khởi động ứng dụng.

Gợi ý 1: Nếu nó hỏi bạn loại người dùng nào bạn là, hãy chọn “nhà phát triển.” Các hồ sơ khác chỉ ẩn các tùy chọn để làm cho mọi thứ dễ dàng hơn.

Gợi ý 2: Nó sẽ gợi ý tải xuống OSS, mô hình AI mã nguồn mở của OpenAI. Thay vào đó, hãy nhấp vào “bỏ qua” cho bây giờ; có những mô hình tốt hơn, nhỏ hơn sẽ làm tốt hơn.

VRAM: Chìa khóa để chạy AI cục bộ

Sau khi bạn đã cài đặt LM Studio, chương trình sẽ sẵn sàng để chạy và sẽ trông như thế này:

Bây giờ bạn cần tải xuống một mô hình trước khi LLM của bạn hoạt động. Và mô hình càng mạnh, nó sẽ cần nhiều tài nguyên hơn.

Tài nguyên quan trọng là VRAM, hay bộ nhớ video trên card đồ họa của bạn. Các LLM được tải vào VRAM trong quá trình suy diễn. Nếu bạn không có đủ không gian, hiệu suất sẽ giảm sút và hệ thống phải sử dụng RAM hệ thống chậm hơn. Bạn sẽ muốn tránh điều đó bằng cách có đủ VRAM cho mô hình mà bạn muốn chạy.

Để biết bạn có bao nhiêu VRAM, bạn có thể vào trình quản lý tác vụ Windows (control+alt+del) và nhấp vào tab GPU, đảm bảo rằng bạn đã chọn card đồ họa rời và không phải đồ họa tích hợp trên bộ xử lý Intel/AMD của bạn.

Bạn sẽ thấy bạn có bao nhiêu VRAM trong phần “Bộ nhớ GPU chuyên dụng”.

Trên các máy Mac M-Series, mọi thứ trở nên dễ dàng hơn vì chúng chia sẻ RAM và VRAM. Số lượng RAM trên máy của bạn sẽ bằng VRAM bạn có thể truy cập.

Để kiểm tra, hãy nhấp vào biểu tượng Apple, sau đó nhấp vào “Giới thiệu.” Bạn có thấy bộ nhớ không? Đó là lượng VRAM bạn có.

Bạn sẽ cần ít nhất 8GB VRAM. Các mô hình trong khoảng 7-9 tỷ tham số, được nén bằng cách sử dụng lượng tử hóa 4-bit, hoạt động tốt trong khi vẫn cung cấp hiệu suất mạnh mẽ. Bạn sẽ biết rằng một mô hình đã được lượng tử hóa vì các nhà phát triển thường công bố điều này trong tên. Nếu bạn thấy BF, FP hoặc GGUF trong tên, thì bạn đang xem một mô hình đã được lượng tử hóa. Số càng thấp (FP32, FP16, FP8, FP4), thì nó sẽ tiêu tốn ít tài nguyên hơn.

Không phải so sánh một cách trực tiếp, nhưng hãy tưởng tượng quá trình lượng tử hóa như độ phân giải của màn hình của bạn. Bạn sẽ thấy cùng một hình ảnh ở độ phân giải 8K, 4K, 1080p hoặc 720p. Bạn sẽ có thể nắm bắt mọi thứ bất kể độ phân giải, nhưng khi phóng to và chú ý đến chi tiết sẽ cho thấy rằng hình ảnh 4K có nhiều thông tin hơn hình ảnh 720p, nhưng sẽ yêu cầu nhiều bộ nhớ và tài nguyên hơn để hiển thị.

Nhưng lý tưởng nhất, nếu bạn thực sự nghiêm túc, thì bạn nên mua một GPU chơi game tốt với 24GB VRAM. Không quan trọng nó mới hay cũ, và cũng không quan trọng nó nhanh hay mạnh như thế nào. Trong thế giới AI, VRAM là vua.

Khi bạn biết được bạn có thể sử dụng bao nhiêu VRAM, bạn có thể xác định các mô hình nào bạn có thể chạy bằng cách truy cập vào Bộ tính toán VRAM. Hoặc, đơn giản là bắt đầu với các mô hình nhỏ hơn 4 tỷ tham số và sau đó nâng cấp lên các mô hình lớn hơn cho đến khi máy tính của bạn thông báo rằng bạn không đủ bộ nhớ. (Thêm thông tin về kỹ thuật này sẽ có sau.)

Tải xuống các mô hình của bạn

Khi bạn biết giới hạn của phần cứng của mình, thì đã đến lúc tải xuống một mô hình. Nhấp vào biểu tượng kính lúp ở thanh bên trái và tìm kiếm mô hình theo tên.

Qwen và DeepSeek là những mô hình tốt để bắt đầu hành trình của bạn. Vâng, chúng là của Trung Quốc, nhưng nếu bạn lo lắng về việc bị theo dõi, thì bạn có thể yên tâm. Khi bạn chạy LLM của mình trên máy tính cục bộ, không có gì rời khỏi máy của bạn, vì vậy bạn sẽ không bị theo dõi bởi chính phủ Trung Quốc, chính phủ Hoa Kỳ hay bất kỳ thực thể doanh nghiệp nào.

Về virus, tất cả những gì chúng tôi khuyến nghị đều đến từ Hugging Face, nơi phần mềm được kiểm tra ngay lập tức về phần mềm gián điệp và các phần mềm độc hại khác. Nhưng nếu nói về điều đó, mô hình Mỹ tốt nhất là Llama của Meta, vì vậy bạn có thể muốn chọn nó nếu bạn là một người yêu nước. ( Chúng tôi cung cấp các khuyến nghị khác trong phần cuối cùng. )

Lưu ý rằng các mô hình hoạt động khác nhau tùy thuộc vào tập dữ liệu đào tạo và các kỹ thuật tinh chỉnh được sử dụng để xây dựng chúng. Dù có Grok của Elon Musk, nhưng không có mô hình nào là không thiên lệch vì không có thông tin nào là không thiên lệch. Vì vậy, hãy chọn loại mà bạn thích tùy thuộc vào mức độ quan tâm của bạn về địa chính trị.

Hiện tại, hãy tải xuống cả hai phiên bản 3B ( mô hình nhỏ hơn và kém khả năng hơn ) và phiên bản 7B. Nếu bạn có thể chạy phiên bản 7B, hãy xóa phiên bản 3B ( và thử tải xuống và chạy phiên bản 13B và tiếp tục như vậy ). Nếu bạn không thể chạy phiên bản 7B, hãy xóa nó và sử dụng phiên bản 3B.

Sau khi tải xuống, tải mô hình từ phần Mô hình của tôi. Giao diện trò chuyện xuất hiện. Gõ một tin nhắn. Mô hình phản hồi. Chúc mừng: Bạn đang chạy một AI cục bộ.

Cung cấp quyền truy cập internet cho mô hình của bạn

Mặc định, các mô hình địa phương không thể duyệt web. Chúng bị cô lập theo thiết kế, vì vậy bạn sẽ tương tác với chúng dựa trên kiến thức nội bộ của chúng. Chúng sẽ hoạt động tốt cho việc viết truyện ngắn, trả lời câu hỏi, làm một số lập trình, v.v. Nhưng chúng sẽ không cung cấp cho bạn tin tức mới nhất, không báo cho bạn thời tiết, không kiểm tra email của bạn, hoặc lên lịch họp cho bạn.

Các máy chủ giao thức ngữ cảnh mô hình thay đổi điều này.

Máy chủ MCP hoạt động như cầu nối giữa mô hình của bạn và các dịch vụ bên ngoài. Bạn muốn AI của mình tìm kiếm trên Google, kiểm tra các kho GitHub, hoặc đọc các trang web? Máy chủ MCP làm cho điều đó trở nên khả thi. LM Studio đã thêm hỗ trợ MCP trong phiên bản 0.3.17, có thể truy cập thông qua tab Chương trình. Mỗi máy chủ cung cấp các công cụ cụ thể—tìm kiếm web, truy cập tệp, gọi API.

Nếu bạn muốn cho các mô hình truy cập internet, thì hướng dẫn đầy đủ của chúng tôi về máy chủ MCP sẽ hướng dẫn bạn qua quá trình thiết lập, bao gồm các tùy chọn phổ biến như tìm kiếm web và truy cập cơ sở dữ liệu.

Lưu file và LM Studio sẽ tự động tải các máy chủ. Khi bạn trò chuyện với mô hình của mình, giờ đây nó có thể gọi các công cụ này để tìm nạp dữ liệu trực tiếp. AI địa phương của bạn vừa đạt được siêu năng lực.

Các mẫu được chúng tôi khuyến nghị cho hệ thống 8GB

Có hàng trăm LLM có sẵn cho bạn, từ những lựa chọn đa năng đến các mô hình được tinh chỉnh cho các trường hợp sử dụng chuyên biệt như lập trình, y tế, diễn vai hoặc viết sáng tạo.

Tốt nhất cho lập trình: Nemotron hoặc DeepSeek là những lựa chọn tốt. Chúng không gây bất ngờ, nhưng sẽ hoạt động tốt trong việc tạo mã và gỡ lỗi, vượt trội hơn hầu hết các lựa chọn thay thế trong các tiêu chuẩn lập trình. DeepSeek-Coder-V2 6.7B cung cấp một lựa chọn chắc chắn khác, đặc biệt cho phát triển đa ngôn ngữ.

Tốt nhất cho kiến thức tổng quát và lý luận: Qwen3 8B. Mô hình này có khả năng toán học mạnh mẽ và xử lý các truy vấn phức tạp một cách hiệu quả. Cửa sổ ngữ cảnh của nó có thể chứa các tài liệu dài hơn mà không mất đi sự mạch lạc.

Tốt nhất cho viết sáng tạo: Các biến thể DeepSeek R1, nhưng bạn cần một số kỹ thuật tạo prompt nặng. Cũng có các phiên bản tinh chỉnh không bị kiểm duyệt như “abliterated-uncensored-NEO-Imatrix” của OpenAI's GPT-OSS, mà tốt cho thể loại kinh dị; hoặc Dirty-Muse-Writer, mà tốt cho thể loại khiêu dâm (, họ nói vậy ).

Tốt nhất cho chatbot, nhập vai, tiểu thuyết tương tác, dịch vụ khách hàng: Mistral 7B ( đặc biệt là Undi95 DPO Mistral 7B ) và các biến thể Llama với các cửa sổ ngữ cảnh lớn. MythoMax L2 13B duy trì các đặc điểm nhân vật trong các cuộc trò chuyện dài và điều chỉnh giọng điệu một cách tự nhiên. Đối với các vai trò NSFW khác, có nhiều tùy chọn. Bạn có thể muốn kiểm tra một số mô hình trong danh sách này.

Dành cho MCP: Jan-v1-4b và Pokee Research 7b là những mô hình tốt nếu bạn muốn thử cái gì đó mới. DeepSeek R1 là một lựa chọn tốt khác.

Tất cả các mô hình đều có thể được tải xuống trực tiếp từ LM Studio nếu bạn chỉ cần tìm kiếm theo tên của chúng.

Lưu ý rằng cảnh quan LLM mã nguồn mở đang thay đổi nhanh chóng. Các mô hình mới được ra mắt hàng tuần, mỗi mô hình đều tuyên bố có những cải tiến. Bạn có thể kiểm tra chúng trong LM Studio, hoặc duyệt qua các kho khác nhau trên Hugging Face. Hãy tự mình kiểm tra các tùy chọn. Những lựa chọn không phù hợp sẽ trở nên rõ ràng nhanh chóng, nhờ vào cách diễn đạt vụng về, các mẫu lặp lại và các lỗi thực tế. Các mô hình tốt cảm giác khác biệt. Chúng lý luận. Chúng khiến bạn bất ngờ.

Công nghệ hoạt động. Phần mềm đã sẵn sàng. Máy tính của bạn có thể đã đủ sức mạnh. Tất cả những gì còn lại là thử nghiệm nó.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hotXem thêm
  • Vốn hóa:$3.82KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$10.94KNgười nắm giữ:12
    25.42%
  • Vốn hóa:$3.84KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$3.81KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.78KNgười nắm giữ:1
    0.00%
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)