Quantização: A Arte de Comprimir Inteligência

Modelos de linguagem são, na essência, bilhões de números de ponto flutuante. Quantização é o processo de representar esses números com menos bits — trocando precisão por tamanho e velocidade.

Os formatos principais

FormatoBits por pesoTamanho relativoQualidade
F3232 bits100%Referência
F1616 bits50%~igual
Q8_08 bits25%Excelente
Q4_K_M4 bits12.5%Muito boa
Q3_K_S3 bits~9%Aceitável
Q2_K2 bits~6%Degradada

O que você perde

Qualidade de quantização não é linear. Q8 é praticamente idêntico a F16. Q4 tem perda mínima perceptível em tarefas gerais. Q3 começa a mostrar artefatos em raciocínio complexo. Q2 é para casos extremos de memória limitada.

Recomendação prática

Para uso geral: Q4_K_M. Melhor equilíbrio entre tamanho, velocidade e qualidade. O sufixo _K_M indica quantização não-uniforme (K-quants), que preserva melhor camadas críticas do modelo.

No Ollama

O Ollama gerencia quantização automaticamente. Ao rodar ollama pull llama3.1, ele baixa Q4_K_M por padrão. Para controle fino, você pode especificar o arquivo GGUF manualmente via Modelfile.