Quantização: A Arte de Comprimir Inteligência
Modelos de linguagem são, na essência, bilhões de números de ponto flutuante. Quantização é o processo de representar esses números com menos bits — trocando precisão por tamanho e velocidade.
Os formatos principais
| Formato | Bits por peso | Tamanho relativo | Qualidade |
|---|---|---|---|
| F32 | 32 bits | 100% | Referência |
| F16 | 16 bits | 50% | ~igual |
| Q8_0 | 8 bits | 25% | Excelente |
| Q4_K_M | 4 bits | 12.5% | Muito boa |
| Q3_K_S | 3 bits | ~9% | Aceitável |
| Q2_K | 2 bits | ~6% | Degradada |
O que você perde
Qualidade de quantização não é linear. Q8 é praticamente idêntico a F16. Q4 tem perda mínima perceptível em tarefas gerais. Q3 começa a mostrar artefatos em raciocínio complexo. Q2 é para casos extremos de memória limitada.
Recomendação prática
Para uso geral: Q4_K_M. Melhor equilíbrio entre tamanho, velocidade e qualidade. O sufixo _K_M indica quantização não-uniforme (K-quants), que preserva melhor camadas críticas do modelo.
No Ollama
O Ollama gerencia quantização automaticamente. Ao rodar ollama pull llama3.1, ele baixa Q4_K_M por padrão. Para controle fino, você pode especificar o arquivo GGUF manualmente via Modelfile.


