LM Studio: Execute modelos de IA localmente no seu computador de graça

Fala Dev, tudo em riba?

Atualmente não passa um dia sequer que não chegue até nós, pobres mortais que trabalham com tecnologia ou se interessam pelo assunto, qualquer notícia, vídeo, e-mail, ou qualquer coisa que apareça no feed da sua rede social favorita relacionada a inteligência artificial. E se você codifica, provavelmente está utilizando IA diariamente – Claude Code, OpenCode, Codex, etc – ou ao menos já recorreu ao ChatGPT, Claude, Gemini ou qualquer outro modelo de IA com para fazer alguma pergunta sobre determinado assunto ou situação que esteja enfrentando no código.

A maioria dos modelos de IA oferecem planos gratuitos principalmente para uso da forma pioneira, mas também a mais simples de se utilizar uma IA: o chat. Alguns modelos possibilitam anexar arquivos, vídeos e outros tipos de mídia e até fazem um bom trabalho. No entanto, se você necessita de uma janela de contexto maior, uma interação mais completa e precisa, você precisa assinar um plano e quanto maior o valor mais poder da IA você destrava.

Mas existe um porém: os planos servem apenas para você ter mais poderes na interface do chat. Se você precisa integrar a IA via API para uso em uma escala maior – atendimento ao cliente, recursos de IA em um app mobile, etc. – não existe um plano fixo, você paga por tokens de entrada (prompts) e tokens de saída (raciocínio do modelo de IA e resposta final). Aí o custo de utilizar um modelo de IA pode ficar bem salgado.

No entanto, se você tem recursos limitados mas deseja explorar a IA seja via chat ou integrado com sua aplicação via API, saiba que é possível sim vencer essa barreira inicial baixando e executando uma LLM diretamente em seu computador. Bora ver como?

LM Studio, execute LLMs localmente em seu computador

O LM Studio é um aplicativo desktop que permite você gerenciar LLMs de forma fácil. Com poucos cliques é possível instalá-lo, baixar e carregar uma LLM e iniciar o uso.

Além do gerenciamento de LLMs, o LM Studio permite a utilização de modo thinking, tem suporte ao protocolo MCP e expõe uma API que pode ser integrada com aplicações escritas em Python ou em JavaScript com TypeScript. Tudo isso de graça, 0800, na faixa e sem a necessidade de conexão com a internet (claro, se você configurar um protocolo MCP do Context 7, por exemplo, aí precisará de conexão com a internet para conseguir utilizá-lo).

Existem algumas recomendações mínimas de hardware para que você consiga executar o LM Studio, que são:

16 GB de memória RAM;
Pelo menos uns 20 GB de espaço em disco disponível;

Ter uma GPU – placa de vídeo dedicada – ajuda no desempenho, porém não é obrigatória.

Baixando e instalando o LM Studio

Acesse o site do projeto LM Studio (https://lmstudio.ai) e clique no botão download no canto superior direito. Identifique e selecione o sistema operacional que você utiliza – atualmente são suportados os sistemas Windows, Linux e MacOS.

Execute a instalação e siga os passos conforme o seu sistema operacional. Se tudo correr como o esperado, após o término da instalação, ao executar o LM Studio você verá uma interface semelhante a da imagem abaixo:

Baixando e carregando o primeiro modelo

Agora vamos baixar e carregar o nosso primeiro LLM. Para isso, no menu lateral esquerdo, clique no ícone “Model Search” – vou partir do ponto em que a interface do aplicativo esteja em inglês, mas você pode alterar o idioma nas configurações do aplicativo. Será exibida uma janela de pesquisa de modelos semelhante a da imagem abaixo:

Vamos baixar um modelo lançado recentemente pelo Google, o Gemma 4 que foi criado para executar em dispositivos com baixa capacidade de processamento, porém bem poderoso. Logo mais escreverei um artigo completo sobre ele.

Na barra de pesquisa digite “Gemma”. Na lista de resultados, selecione um dos modelos e clique no botão download.

Aguarde o download e quando terminar, feche a janela de pesquisa de modelos.

Voltando à tela inicial do LM Studio, clique na barra superior para carregar um modelo.

Selecione o modelo que baixamos (Gemma 4):

O modelo será carregado e aparecerá como selecionado na barra superior.

A primeira execução local do modelo de IA

Agora chegou a hora de testar. Para isso basta clicar no botão “New chat” ao centro da tela ou no menu lateral esquerdo. Se o modelo não estiver selecionado na barra superior, selecione novamente.

Aí é só digitar o que vier na cabeça e ver o modelo responder direto do seu computador, sem enviar nada para nenhum servidor externo.

Melhorando as coisas com o Context 7

Até aqui você já tem o básico para começar a brincar com a IA no seu computador sem gastar um realzinho sequer. No entanto, podemos ir um pouco mais além.

Vamos configurar o MCP Server do Context 7. Pra você que nunca ouviu falar, o Context 7 é um projeto que basicamente converte documentações de diversos projetos e aplicativos como o Next.js, Expo, Figma, React, etc., em um formato que seja possível ser utilizado pelas LLMs.

Isso é muito útil, pois o treinamento das LLMs é feito com os dados do momento, ou seja, quando um modelo é lançado em janeiro de 2026, por exemplo, os dados utilizados para treinamento são anteriores a essa data, de modo que se for lançada uma nova versão do Node.js após essa data, a LLM não vai saber de sua existência.

É aí que entra o Context 7: ele fornece essa informação para o modelo para que ele consiga formular uma resposta atualizada.

Acesse o site do Context 7 (https://context7.com/) e faça seu cadastro gratuitamente. Você terá acesso ao plano de 1.000 requisições por mês sem custo.

Feito seu cadastro, acesse o dashboard e clique em “Create API Key”.

Dê um nome para a chave de API que você está criando e clique em “Create API Key”.

Sua API Key será gerada, copie-a, pois não será possível ver qual é novamente, e depois clique em “Done”.

Estando de posse de sua API Key do Context 7, volte para o LM Studio, clique no ícone do martelinho, chamado “Integrations”, na janela de chat.

Clique no ícone de “+” para abrir as configurações de MCP. Clique em “Edit mcp.json”.

Será exibido um aviso dizendo para ter cuidado com danos que o uso indiscriminado de MCPs pode causar, clique em “Got it”.

No arquivo apresentado, cole o seguinte código:

{
  "mcpServers": {
    "context7": {
      "url": "https://mcp.context7.com/mcp",
      "headers": {
        "CONTEXT7_API_KEY": "[COLE-SUA-API-KEY-AQUI]"
      }
    }
  }
}

Substitua o texto “[COLE-SUA-API-KEY-AQUI]” pela sua API Key e clique no botão “Save”.

Após clicar em “Save” será exibida uma pergunta se você deseja habilitar o MCP configurado. Clique no botão “Configure”. Será exibido um menu lateral direito com as integrações configuradas em seu LM Studio. Clique no toggle relacionado ao Context 7 para habilitá-lo. Deixe selecionadas todas as tools associadas ao MCP.

Agora é só fazer uma pergunta relacionada a uma documentação recente para ver o modelo utilizar o MCP do Context 7 para responder. Para que o MCP seja utilizado ele tem que estar habilitado (em azul) na caixa de texto do chat.

No meu exemplo, perguntei sobre a versão atual do Typescript.

Note que a resposta recebida é a versão 6.0.2, que foi lançada em Abril de 2026. Antes de responder é possível ver na imagem acima um label com o texto “mcp/context7”. Isso demonstra que o modelo consultou o MCP do Context 7 para formular a resposta. Sem essa consulta o modelo não saberia qual é a versão atual do TypeScript.

Conclusão

É possível sim testar vários modelos de IA sem gastar um realzinho sequer, executando em seu computador e tendo à disposição recursos que estendem o poder do modelo. O MCP é um exemplo de extensão de poderes, que pode ser utilizado também em modelos da OpenAI via ChatGPT, da Anthropic via Claude, da Google via Gemini e por aí vai.

Você não precisa pagar um plano para usar tais modelos e tampouco ficar economizando tokens para consumos via API (não vimos um exemplo de uso da API do LM Studio nesse artigo, vamos deixar para um artigo futuro) para ter uma primeira experiência com a IA.

Claro que o poder computacional e o tamanho dos modelos não se comparam a você pagar um plano de modelos como ChatGPT e Claude, isso é inegável. No entanto, para execução de testes de prompts e principalmente de uso integrado da IA em aplicações diversas (citamos algumas aqui no artigo) vale muito a pena executar provas de conceito e testes rodando um modelo em seu computador e depois conectar as APIs dos modelos pagos apenas para refinamento — você pode economizar um bom dinheiro aí.

Espero que o conteúdo deste artigo tenha sido útil para você de alguma forma. Até o próximo artigo e um forte abraço!