Quantização: Como LLMs Cabem em Hardware Comum

Quantização: A Arte de Comprimir Inteligência

Modelos de linguagem são, na essência, bilhões de números de ponto flutuante. Quantização é o processo de representar esses números com menos bits — trocando precisão por tamanho e velocidade.

Os formatos principais

Formato	Bits por peso	Tamanho relativo	Qualidade
F32	32 bits	100%	Referência
F16	16 bits	50%	~igual
Q8_0	8 bits	25%	Excelente
Q4_K_M	4 bits	12.5%	Muito boa
Q3_K_S	3 bits	~9%	Aceitável
Q2_K	2 bits	~6%	Degradada

Qualidade de quantização não é linear. Q8 é praticamente idêntico a F16. Q4 tem perda mínima perceptível em tarefas gerais. Q3 começa a mostrar artefatos em raciocínio complexo. Q2 é para casos extremos de memória limitada.

Recomendação prática

Para uso geral: Q4_K_M. Melhor equilíbrio entre tamanho, velocidade e qualidade. O sufixo _K_M indica quantização não-uniforme (K-quants), que preserva melhor camadas críticas do modelo.

No Ollama

O Ollama gerencia quantização automaticamente. Ao rodar ollama pull llama3.1, ele baixa Q4_K_M por padrão. Para controle fino, você pode especificar o arquivo GGUF manualmente via Modelfile.

Quantização: A Arte de Comprimir Inteligência

Os formatos principais

O que você perde

Recomendação prática

No Ollama