Key Takeaways
- Fine-tuning com LoRA: 500 exemplos, 8 GB VRAM, 1–2 horas, $100–500. Abordagem certa para 99% das organizações.
- Pré-treinamento: 10B+ tokens, semanas de computação, $50K–500K. Apenas para necessidades proprietárias excepcionais.
- Unsloth é 4× mais rápido que o treinamento HuggingFace padrão para fine-tuning LoRA.
- RAG é a alternativa ao fine-tuning quando os documentos mudam frequentemente.
- Deploy do modelo com fine-tuning no Ollama: exporte para GGUF e use `ollama create`.
Matriz de decisão: fine-tuning vs pré-treinamento vs RAG
| Critério | Fine-tuning LoRA | Pré-treinamento | RAG |
|---|---|---|---|
| Dados disponíveis | 500–50K exemplos | 10B+ tokens | Qualquer tamanho |
| Custo | $100–500 | $50K–500K | $0 (local) |
| Tempo | 1–24 horas | Semanas | Horas |
| Hardware necessário | 8 GB VRAM | Cluster de GPU | Qualquer |
| Documentos mudam | Não ideal | Não ideal | Ideal |
| Mudança de estilo/tom | Ideal | Ideal | Não resolve |
Configuração do Unsloth para fine-tuning LoRA (7 passos)
- 1Instale o Unsloth: `pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"`
- 2Carregue o modelo base quantizado em 4 bits com `FastLanguageModel.from_pretrained()`.
- 3Adicione adaptadores LoRA com `FastLanguageModel.get_peft_model()` (rank=16, lora_alpha=16).
- 4Prepare o dataset no formato de instrução: `{"instruction": "...", "output": "..."}`.
- 5Treine com `SFTTrainer` do pacote trl. Tempo: 1–2 horas para 500 exemplos em 8 GB VRAM.
- 6Avalie o modelo treinado com exemplos do seu domínio.
- 7Exporte para GGUF e importe no Ollama: `ollama create meu-modelo -f Modelfile`.
Perguntas frequentes sobre criação de LLMs personalizados
O fine-tuning consegue igualar a qualidade de um modelo pré-treinado?
Modelos com fine-tuning podem superar o desempenho do modelo base em seu domínio específico, mas não alcançarão a amplitude de conhecimento de um modelo pré-treinado maior. Faça fine-tuning quando a precisão específica do domínio importa mais que a amplitude.
Quantos dados preciso para fazer fine-tuning de forma eficaz?
Mínimo 500–1.000 exemplos para um modelo utilizável; 5.000+ para qualidade de produção. A qualidade dos dados importa mais que a quantidade.
Posso fazer fine-tuning em português?
Sim. Use dados de treinamento em PT-BR. Modelos multilíngues (Aya, Qwen) são melhores pontos de partida para fine-tuning em português do que modelos treinados principalmente em inglês.