Como Rodar Modelos de IA Maiores no Mac com Pouca RAM

Rodar modelos de inteligência artificial localmente no Mac está se tornando cada vez mais comum. Ferramentas como LM Studio, por exemplo, permitem executar modelos de linguagem diretamente no computador, sem depender da nuvem.

No entanto, muitos usuários encontram rapidamente uma limitação: a memória RAM do Mac.

Mesmo em máquinas com 16 GB de memória, alguns modelos simplesmente não carregam. Curiosamente, isso acontece mesmo quando o tamanho do modelo parece caber na memória disponível.

A boa notícia é que existe um ajuste avançado no macOS que pode liberar mais memória para a GPU e permitir rodar modelos de IA maiores no Apple Silicon.

Neste guia, você vai entender por que isso acontece e como ajustar o limite de memória com segurança.

Navegue pelo conteúdo

Para quem preparamos este material

Este guia foi preparado especialmente para usuários que:

usam Mac com Apple Silicon (M1, M2, M3 ou M4)
querem rodar modelos de IA localmente
utilizam ferramentas como LM Studio, Ollama ou similares
possuem Mac com 16 GB ou 24 GB de RAM
encontram erro ao carregar modelos maiores

Se você apenas usa o Mac para tarefas comuns, como navegar ou trabalhar com documentos, não há necessidade de alterar esse ajuste.

Por que alguns modelos de IA não carregam no Mac

Antes de tudo, é importante entender como funciona a memória nos Macs modernos.

Nos computadores com Apple Silicon, a Apple utiliza um sistema chamado Unified Memory.

Isso significa que CPU, GPU e Neural Engine compartilham a mesma memória RAM.

Na teoria, isso é excelente para IA. Afinal, a GPU pode usar parte da memória principal como VRAM.

No entanto, o macOS reserva automaticamente uma parte dessa memória para o próprio sistema.

Entre os elementos que consomem RAM estão:

kernel do sistema
drivers da GPU
buffers de entrada e saída
processos em segundo plano
aplicativos abertos

Por causa disso, um Mac com 16 GB de RAM normalmente disponibiliza apenas cerca de 11 GB ou 12 GB para modelos de IA.

Consequentemente, alguns modelos falham ao carregar.

Exemplo real do problema

Imagine que você esteja usando LM Studio e tente carregar um modelo de linguagem maior.

Por exemplo:

GPT OSS 20B

Esse modelo pode exigir cerca de:

12 GB de memória ou mais.

Mesmo em um Mac com 16 GB de RAM, o aplicativo pode mostrar algo como:

RAM total: 16 GB
VRAM disponível: ~11.8 GB

Quando você tenta carregar o modelo, o resultado pode ser:

Erro ao carregar o modelo.

Isso acontece porque o limite de memória permitido pelo sistema é menor do que o necessário.

O ajuste que libera mais memória para IA

Felizmente, existe um parâmetro interno no macOS que controla quanto da memória pode ser reservada pela GPU.

Esse limite pode ser ajustado usando o Terminal.

Primeiro, abra o Terminal no macOS.

Em seguida, execute o seguinte comando:

sudo sysctl iogpu.wired_limit_mb=14336

Depois disso, reinicie o aplicativo de IA (como o LM Studio).

Agora, o sistema permitirá que a GPU utilize até 14 GB de memória.

Isso pode ser suficiente para carregar modelos que antes não funcionavam.

O que esse comando realmente faz

Esse comando altera o parâmetro chamado:

iogpu.wired_limit_mb

Basicamente, ele define o limite máximo de memória que a GPU pode reservar.

Ao aumentar esse valor, você permite que o sistema utilize mais memória para processamento gráfico e IA.

Consequentemente, aplicativos como LM Studio passam a reconhecer mais VRAM disponível.

Cuidado: usar memória demais pode causar problemas

Apesar de funcionar, esse ajuste deve ser feito com cuidado.

Se você definir um limite muito alto, como por exemplo:

16000

em um Mac com 16 GB de RAM, o sistema poderá ficar sem memória suficiente para:

o macOS
aplicativos
processos em segundo plano

Quando isso acontece, o sistema entra em alta pressão de memória.

Nesse cenário, podem surgir problemas como:

lentidão no sistema
aplicativos travando
congelamentos ocasionais

Por isso, é sempre recomendável deixar uma margem de segurança.

Valor recomendado para Macs com 16 GB

Para Macs com 16 GB de memória, um valor relativamente equilibrado é:

sudo sysctl iogpu.wired_limit_mb=14336

Esse valor permite cerca de:

14 GB de memória para GPU e IA

Ao mesmo tempo, ele ainda deixa aproximadamente 2 GB livres para o sistema operacional.

Assim, o Mac continua funcionando com mais estabilidade.

Quando esse ajuste realmente vale a pena

Esse tipo de configuração faz sentido principalmente para quem utiliza o Mac para:

rodar LLMs localmente
experimentar modelos open source
testar aplicações de IA offline
desenvolvimento de IA

Por outro lado, se você usa o Mac apenas para tarefas comuns, não há motivo para alterar esse limite.

Nesse caso, o macOS já faz um gerenciamento automático muito eficiente da memória.

Conclusão

Os Macs com Apple Silicon são extremamente capazes para rodar inteligência artificial localmente.

No entanto, o sistema impõe limites automáticos de memória para garantir estabilidade.

Ao ajustar o limite de memória da GPU, é possível liberar alguns gigabytes extras e rodar modelos de IA maiores.

Mesmo assim, é importante usar esse recurso com cuidado.

Afinal, em muitos casos, estabilidade do sistema vale mais do que alguns gigabytes extras de memória.

Via