⏰ 倒计时 2 天开启!💥 Gate 广场活动:#发帖赢代币TRUST 💥
展示你的创意赢取奖励
在 Gate 广场发布与 TRUST 或 CandyDrop 活动 相关的原创内容,就有机会瓜分 13,333 枚 TRUST 奖励!
📅 活动时间:2025年11月6日 – 11月16日 24:00(UTC+8)
📌 活动详情:
CandyDrop 👉 https://www.gate.com/zh/announcements/article/47990
📌 参与方式:
1️⃣ 在 Gate 广场发布原创内容,主题需与 TRUST 或 CandyDrop 活动相关;
2️⃣ 内容不少于 80 字;
3️⃣ 帖子添加话题:#发帖赢代币TRUST
4️⃣ 附上任意 CandyDrop 活动参与截图
🏆 奖励设置(总奖池:13,333 TRUST)
🥇 一等奖(1名):3,833 TRUST / 人
🥈 二等奖(3名):1,500 TRUST / 人
🥉 三等奖(10名):500 TRUST / 人
运行您自己的本地开源 AI 模型很简单——方法如下
解密的艺术、时尚与娱乐中心。
发现场景
\u003e\u003e\u003e\u003e gd2md-html 警告:生成的源中有内联图像链接,并将图像存储到您的服务器。注意:从 Google Docs 导出的 zip 文件中的图像可能不会按照与您的文档相同的顺序出现。请检查图像!
----->
如果你不是开发者,那你为什么会想在家用电脑上运行一个开源的人工智能模型呢?
事实证明,有很多好的理由。随着免费、开源的模型变得比以往更好——并且易于使用,硬件要求最低——现在是尝试一下的好时机。
以下是开源模型比每月支付$20 给ChatGPT、Perplexity或Google更好的几个理由:
入门障碍已经消失。现在有专门的程序让用户可以在没有独立安装库、依赖项和插件的麻烦下实验AI。几乎任何拥有相对较新计算机的人都可以做到:一台中档笔记本或台式机,拥有8GB的视频内存,就可以运行令人惊讶的强大模型,某些模型甚至可以在6GB或4GB的VRAM上运行。对于苹果来说,过去几年的任何M系列芯片(都能够运行优化后的模型。
软件是免费的,设置只需几分钟,而最让人畏惧的一步——选择使用哪个工具——归结为一个简单的问题:你更喜欢点击按钮还是输入命令?
LM Studio 与 Ollama
两个平台主导了本地的人工智能领域,它们从相反的角度解决问题。
LM Studio 将一切包装在一个精美的图形界面中。您只需下载应用程序,浏览内置模型库,点击安装,即可开始聊天。体验与使用 ChatGPT 相似,不同的是处理过程发生在您的硬件上。Windows、Mac 和 Linux 用户都能获得相同流畅的体验。对于新手来说,这是显而易见的起点。
Ollama 旨在服务于那些在终端中工作的开发者和高级用户。通过命令行安装,使用单个命令拉取模型,然后根据自己的需求进行脚本编写或自动化。它轻量、快速,并且能够与编程工作流程无缝集成。
学习曲线更陡,但回报是灵活性。这也是强大用户选择的多功能性和可定制性。
这两个工具使用相同的优化引擎运行相同的基础模型。性能差异微乎其微。
设置LM工作室
访问并下载适用于您的操作系统的安装程序。该文件大小约为540MB。运行安装程序并按照提示操作。启动应用程序。
提示 1:如果它询问您是哪种类型的用户,请选择 “开发者”。其他配置文件只是隐藏选项以简化操作。
提示 2:它会推荐下载 OSS,即 OpenAI 的开源 AI 模型。相反,请暂时点击“跳过”;还有更好、更小的模型可以做得更好。
VRAM:运行本地AI的关键
一旦您安装了LM Studio,程序将准备运行,并将如下所示:
现在您需要下载一个模型,您的 LLM 才能工作。模型越强大,它所需的资源就越多。
关键资源是VRAM,即显卡上的视频内存。LLM在推理过程中加载到VRAM中。如果空间不足,性能就会崩溃,系统必须转向更慢的系统RAM。您需要确保有足够的VRAM来运行您想要的模型,以避免这种情况。
要知道你有多少显存,可以进入Windows任务管理器)按下control+alt+del(,然后点击GPU选项卡,确保选择的是独立显卡,而不是你Intel/AMD处理器上的集成显卡。
您将在“专用 GPU 内存”部分看到您拥有多少 VRAM。
在M系列Mac上,一切都更简单,因为它们共享RAM和VRAM。您机器上的RAM量将等于您可以访问的VRAM量。
要检查,请点击苹果图标,然后点击“关于”。看到内存了吗?这就是你的显存。
您至少需要 8GB 的 VRAM。使用 4 位量化压缩的 70-90 亿参数范围的模型可以舒适地适应,同时提供强大的性能。您可以通过开发者通常在名称中披露的方式得知模型是否经过量化。如果您在名称中看到 BF、FP 或 GGUF,那么您正在查看一个量化模型。数字越低 )FP32、FP16、FP8、FP4(,消耗的资源就越少。
这不是 apples to apples,但可以把量化想象成你屏幕的分辨率。你将看到相同的图像,无论是 8K、4K、1080p 还是 720p。无论分辨率如何,你都能够掌握一切,但放大并挑剔细节会揭示 4K 图像比 720p 拥有更多的信息,但渲染时会需要更多的内存和资源。
但理想情况下,如果你真的很认真,你应该购买一款具有24GB VRAM的优秀游戏 GPU。新旧无所谓,速度和性能也无所谓。在人工智能的世界里,VRAM 是王。
一旦你知道可以使用多少VRAM,你就可以通过访问VRAM计算器来确定可以运行哪些模型。或者,简单地从少于40亿参数的小模型开始,然后逐步升级到更大的模型,直到你的计算机告诉你内存不足。)稍后会详细介绍这种技术。(
正在下载您的模型
一旦你了解了硬件的限制,就可以开始下载模型了。点击左侧边栏的放大镜图标,通过名称搜索模型。
Qwen和DeepSeek是开始您旅程的好模型。是的,它们是中国的,但如果您担心被监视,那么您可以安心。当您在本地运行您的LLM时,没有任何信息会离开您的机器,因此您不会被中国、美国政府或任何企业实体监视。
至于病毒,我们推荐的一切都来自Hugging Face,在那里软件会立即检查间谍软件和其他恶意软件。但就其价值而言,最好的美国模型是Meta的Llama,所以如果你是爱国者,你可能想选择那个。)我们在最后一部分提供其他推荐。(
请注意,模型的表现因训练数据集和用于构建它们的微调技术而异。尽管有埃隆·马斯克的Grok,但并不存在无偏见模型,因为不存在无偏见的信息。因此,根据你对地缘政治的关注程度选择你的毒药。
现在,请下载3B )较小的能力较低的模型(和7B版本。如果您能运行7B,则删除3B )并尝试下载和运行13B版本等等(。如果您无法运行7B版本,则删除它并使用3B版本。
下载后,从我的模型部分加载模型。聊天界面出现。输入消息。模型回复。恭喜:您正在运行本地AI。
给您的模型提供互联网访问
开箱即用,本地模型无法浏览互联网。它们是按设计隔离的,因此您将根据它们的内部知识进行迭代。它们适合用于撰写短篇故事、回答问题、进行一些编码等。但它们无法提供最新新闻、告诉您天气、检查您的电子邮件或为您安排会议。
模型上下文协议服务器改变了这一点。
MCP服务器充当您的模型与外部服务之间的桥梁。想让您的AI搜索Google、检查GitHub仓库或读取网站吗?MCP服务器使其成为可能。LM Studio在0.3.17版本中添加了MCP支持,通过程序选项卡可访问。每个服务器都暴露了特定的工具—网页搜索、文件访问、API调用。
如果您想让模型访问互联网,那么我们的MCP服务器完整指南将详细介绍设置过程,包括网络搜索和数据库访问等流行选项。
保存文件后,LM Studio 将自动加载服务器。当您与模型聊天时,它现在可以调用这些工具以获取实时数据。您的本地 AI 刚刚获得了超能力。
我们推荐的8GB系统模型
实际上,有数百种大型语言模型(LLM)可供您选择,从万用选项到为特定用例(如编码、医学、角色扮演或创意写作)设计的精细调优模型。
最佳编码选择: Nemotron 或 DeepSeek 很不错。它们不会让你大吃一惊,但在代码生成和调试方面表现良好,超越大多数编程基准的替代品。DeepSeek-Coder-V2 6.7B 提供了另一个可靠的选择,特别适用于多语言开发。
最适合一般知识和推理:Qwen3 8B。该模型具有强大的数学能力,能够有效处理复杂查询。其上下文窗口可容纳更长的文档而不会失去连贯性。
最适合创意写作:DeepSeek R1 变体,但你需要一些重度的提示工程。此外,还有一些未审查的微调,如 OpenAI 的 GPT-OSS 的 “abliterated-uncensored-NEO-Imatrix” 版本,非常适合恐怖写作;或者 Dirty-Muse-Writer,非常适合情色写作),他们这么说(。
适合聊天机器人、角色扮演、互动小说、客户服务:Mistral 7B )尤其是 Undi95 DPO Mistral 7B( 和具有大上下文窗口的 Llama 变体。MythoMax L2 13B 在长时间对话中保持角色特征,并自然地调整语气。对于其他 NSFW 角色扮演,有很多选择。您可能想查看此列表中的一些模型。
对于 MCP:Jan-v1-4b 和 Pokee Research 7b 是不错的模型,如果你想尝试一些新的东西。DeepSeek R1 也是一个不错的选择。
所有模型都可以直接从LM Studio下载,只需搜索它们的名称。
注意,开源的 LLM 生态系统正在快速变化。每周都有新模型发布,每个模型都声称有改进。您可以在 LM Studio 中查看它们,或浏览 Hugging Face 上的不同代码库。自己测试选项。糟糕的模型很快就会显露出问题,这要归功于生硬的措辞、重复的模式和事实错误。好的模型感觉不同。它们会推理。它们会让你感到惊讶。
这项技术有效。软件已准备好。你的计算机可能已经具备足够的性能。剩下的就是尝试它。