Ler para transferir a aplicação Gate

Mais opções de transferência

Não me lembre disso novamente hoje.

Executar o seu próprio modelo de IA open-source local é fácil—Veja como

Decrypt

2025-11-15 17:03:00

Hub de Arte, Moda e Entretenimento da Decrypt.

Descubra SCENE

>>>> gd2md-html alerta: link de imagem inline no código fonte gerado e armazene as imagens no seu servidor. NOTA: As imagens no arquivo zip exportado do Google Docs podem não aparecer na mesma ordem que estão no seu documento. Por favor, verifique as imagens!

----->

Se você não é um desenvolvedor, então por que diabos você gostaria de rodar um modelo de IA de código aberto no seu computador em casa?

Aparentemente, há várias boas razões. E com modelos gratuitos e de código aberto se tornando melhores do que nunca—e simples de usar, com requisitos mínimos de hardware—agora é um ótimo momento para experimentar.

Aqui estão algumas razões pelas quais os modelos de código aberto são melhores do que pagar $20 por mês ao ChatGPT, Perplexity ou Google:

É grátis. Sem taxas de subscrição.
Os seus dados permanecem no seu dispositivo.
Funciona offline, sem necessidade de internet.
Você pode treinar e personalizar seu modelo para casos de uso específicos, como escrita criativa ou… bem, qualquer coisa.

A barreira de entrada desmoronou. Agora existem programas especializados que permitem aos usuários experimentar a IA sem todo o trabalho de instalar bibliotecas, dependências e plugins de forma independente. Praticamente qualquer pessoa com um computador relativamente recente pode fazer isso: um laptop ou desktop de médio porte com 8GB de memória de vídeo pode executar modelos surpreendentemente capazes, e alguns modelos funcionam com 6GB ou até 4GB de VRAM. E para a Apple, qualquer chip da série M ( dos últimos anos ) poderá executar modelos otimizados.

O software é gratuito, a instalação leva minutos, e o passo mais intimidante—escolher qual ferramenta usar—resume-se a uma simples pergunta: Prefere clicar em botões ou digitar comandos?

LM Studio vs. Ollama

Duas plataformas dominam o espaço local de IA, e elas abordam o problema de ângulos opostos.

O LM Studio envolve tudo em uma interface gráfica polida. Você pode simplesmente baixar o aplicativo, navegar em uma biblioteca de modelos embutida, clicar para instalar e começar a conversar. A experiência reflete o uso do ChatGPT, exceto que o processamento acontece no seu hardware. Usuários de Windows, Mac e Linux têm a mesma experiência suave. Para os novatos, este é o ponto de partida óbvio.

Ollama é direcionado a desenvolvedores e usuários avançados que vivem no terminal. Instale via linha de comando, puxe modelos com um único comando e, em seguida, escreva ou automatize à vontade. É leve, rápido e se integra de forma limpa aos fluxos de trabalho de programação.

A curva de aprendizagem é mais íngreme, mas a recompensa é a flexibilidade. É também o que os utilizadores avançados escolhem pela versatilidade e personalização.

Ambas as ferramentas utilizam os mesmos modelos subjacentes com motores de otimização idênticos. As diferenças de desempenho são negligenciáveis.

Configuração do LM Studio

Visite e faça o download do instalador para o seu sistema operativo. O ficheiro pesa cerca de 540MB. Execute o instalador e siga os avisos. Inicie a aplicação.

Dica 1: Se lhe perguntar que tipo de utilizador é, escolha “desenvolvedor.” Os outros perfis simplesmente ocultam opções para facilitar as coisas.

Dica 2: Ele recomendará o download do OSS, o modelo de IA de código aberto da OpenAI. Em vez disso, clique em “pular” por agora; há modelos melhores e menores que farão um trabalho melhor.

VRAM: A chave para executar IA local

Depois de instalar o LM Studio, o programa estará pronto para ser executado e parecerá assim:

Agora você precisa baixar um modelo antes que seu LLM funcione. E quanto mais poderoso for o modelo, mais recursos ele exigirá.

O recurso crítico é a VRAM, ou memória de vídeo na sua placa gráfica. Os LLMs carregam na VRAM durante a inferência. Se você não tiver espaço suficiente, o desempenho colapsa e o sistema deve recorrer à memória RAM do sistema, que é mais lenta. Você vai querer evitar isso tendo VRAM suficiente para o modelo que deseja executar.

Para saber quanto VRAM você tem, você pode entrar no gerenciador de tarefas do Windows (control+alt+del) e clicar na aba GPU, certificando-se de que selecionou a placa gráfica dedicada e não os gráficos integrados do seu processador Intel/AMD.

Você verá quanto VRAM você tem na seção “Memória GPU dedicada”.

Nos Macs da série M, as coisas são mais fáceis, uma vez que compartilham RAM e VRAM. A quantidade de RAM na sua máquina será igual à VRAM que você pode acessar.

Para verificar, clique no logótipo da Apple, depois clique em “Sobre.” Vê Memória? É assim que quanto VRAM tens.

Você vai querer pelo menos 8GB de VRAM. Modelos na faixa de 7-9 bilhões de parâmetros, comprimidos usando quantização de 4 bits, se encaixam confortavelmente enquanto oferecem um desempenho forte. Você saberá se um modelo é quantizado porque os desenvolvedores geralmente divulgam isso no nome. Se você ver BF, FP ou GGUF no nome, então você está olhando para um modelo quantizado. Quanto menor o número (FP32, FP16, FP8, FP4), menos recursos ele consumirá.

Não é uma comparação direta, mas imagine a quantização como a resolução do seu ecrã. Você verá a mesma imagem em 8K, 4K, 1080p ou 720p. Você será capaz de compreender tudo, independentemente da resolução, mas ao ampliar e ser exigente com os detalhes, ficará claro que uma imagem em 4K tem mais informações do que uma em 720p, mas exigirá mais memória e recursos para ser renderizada.

Mas idealmente, se você realmente levar a sério, então deve comprar uma boa GPU de jogos com 24GB de VRAM. Não importa se é nova ou não, e não importa quão rápida ou poderosa ela seja. Na terra da IA, a VRAM é o rei.

Uma vez que você saiba quanto VRAM pode utilizar, então você pode descobrir quais modelos pode executar indo ao Calculador de VRAM. Ou, simplesmente comece com modelos menores de menos de 4 bilhões de parâmetros e depois avance para modelos maiores até que seu computador lhe diga que você não tem memória suficiente. (Mais sobre essa técnica em breve.)

A descarregar os seus modelos

Uma vez que você conhece os limites do seu hardware, é hora de baixar um modelo. Clique no ícone da lupa na barra lateral esquerda e procure o modelo pelo nome.

Qwen e DeepSeek são bons modelos para começar a sua jornada. Sim, eles são chineses, mas se você está preocupado em ser espionado, pode ficar tranquilo. Quando você executa seu LLM localmente, nada sai da sua máquina, então você não será espionado nem pelos chineses, nem pelo governo dos EUA, nem por qualquer entidade corporativa.

Quanto aos vírus, tudo o que estamos a recomendar vem via Hugging Face, onde o software é rapidamente verificado em busca de spyware e outros malwares. Mas, para o que vale, o melhor modelo americano é o Llama da Meta, por isso pode querer escolher esse se for patriota. (Oferecemos outras recomendações na seção final.)

Note que os modelos se comportam de maneira diferente dependendo do conjunto de dados de treinamento e das técnicas de ajuste fino utilizadas para construí-los. Apesar do Grok de Elon Musk, não existe um modelo imparcial porque não existe informação imparcial. Portanto, escolha a sua preferência dependendo de quão interessado você está em geopolítica.

Para já, faça o download tanto do modelo 3B (menor e menos capaz) como das versões 7B. Se conseguir executar a versão 7B, então apague a versão 3B (e tente fazer o download e executar a versão 13B e assim por diante). Se não conseguir executar a versão 7B, então apague-a e utilize a versão 3B.

Uma vez descarregado, carregue o modelo na seção Meus Modelos. A interface de chat aparece. Escreva uma mensagem. O modelo responde. Parabéns: Você está a executar uma IA local.

Dando ao seu modelo acesso à internet

Por padrão, os modelos locais não conseguem navegar na web. Eles são isolados por design, então você irá interagir com eles com base no seu conhecimento interno. Eles funcionarão bem para escrever contos, responder a perguntas, fazer alguma codificação, etc. Mas não irão te dar as últimas notícias, informar sobre o clima, verificar seu email ou agendar reuniões para você.

Os servidores do Protocolo de Contexto do Modelo mudam isso.

Os servidores MCP atuam como pontes entre o seu modelo e serviços externos. Quer que a sua IA pesquise no Google, verifique repositórios do GitHub ou leia websites? Os servidores MCP tornam isso possível. O LM Studio adicionou suporte a MCP na versão 0.3.17, acessível através da aba Programa. Cada servidor expõe ferramentas específicas—pesquisa na web, acesso a arquivos, chamadas de API.

Se você quiser dar acesso à internet para os modelos, então nosso guia completo sobre servidores MCP explica o processo de configuração, incluindo opções populares como busca na web e acesso a bancos de dados.

Guarde o arquivo e o LM Studio irá carregar automaticamente os servidores. Quando você conversar com seu modelo, ele agora pode chamar essas ferramentas para buscar dados ao vivo. Sua IA local acaba de ganhar superpoderes.

Nossos modelos recomendados para sistemas de 8GB

Existem literalmente centenas de LLMs disponíveis para você, desde opções versáteis até modelos ajustados para casos de uso especializados, como programação, medicina, interpretação de papéis ou escrita criativa.

Melhor para codificação: Nemotron ou DeepSeek são boas opções. Não vão te surpreender, mas funcionarão bem com geração de código e depuração, superando a maioria das alternativas em benchmarks de programação. DeepSeek-Coder-V2 6.7B oferece outra opção sólida, particularmente para desenvolvimento multilíngue.

Melhor para conhecimento geral e raciocínio: Qwen3 8B. O modelo possui fortes capacidades matemáticas e lida eficazmente com consultas complexas. Sua janela de contexto acomoda documentos mais longos sem perder a coerência.

Melhor para escrita criativa: variantes DeepSeek R1, mas você precisa de uma engenharia de prompt pesada. Existem também fine-tunes não censurados como a versão “abliterated-uncensored-NEO-Imatrix” do GPT-OSS da OpenAI, que é boa para horror; ou Dirty-Muse-Writer, que é boa para erotica (, assim dizem ).

Melhor para chatbots, jogos de interpretação, ficção interativa, serviço ao cliente: Mistral 7B ( especialmente Undi95 DPO Mistral 7B) e variantes Llama com grandes janelas de contexto. MythoMax L2 13B mantém características de personagens durante longas conversas e adapta o tom naturalmente. Para outros jogos de interpretação NSFW, existem muitas opções. Você pode querer conferir alguns dos modelos nesta lista.

Para MCP: Jan-v1-4b e Pokee Research 7b são bons modelos se você quiser experimentar algo novo. DeepSeek R1 é outra boa opção.

Todos os modelos podem ser descarregados diretamente do LM Studio se você apenas procurar pelos seus nomes.

Note que o panorama de LLM de código aberto está a mudar rapidamente. Novos modelos são lançados semanalmente, cada um a reivindicar melhorias. Você pode conferi-los no LM Studio ou navegar pelos diferentes repositórios no Hugging Face. Teste as opções por si mesmo. As más escolhas tornam-se óbvias rapidamente, graças à formulação awkward, padrões repetitivos e erros factuais. Bons modelos sentem-se diferentes. Eles raciocinam. Eles surpreendem você.

A tecnologia funciona. O software está pronto. O seu computador provavelmente já tem poder suficiente. Tudo o que falta é experimentá-lo.

OWN-0.01%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.