Points clés
- Tout télécharger sur une machine connectée : binaire Ollama, GGUF, configs tokeniseur
- Transférer via USB-SSD ou réseau interne — ne jamais utiliser la synchronisation cloud
- Définir la variable
OLLAMA_MODELSpour pointer vers le répertoire de modèles hors ligne - Qwen2.5 14B en Q4_K_M (9,5 Go) est le standard hors ligne recommandé
- Conformité RGPD : inférence locale — aucune donnée transmise à des tiers
Liste de contrôle pré-déploiement
Cocher chaque élément sur une machine connectée avant l'isolation.
- 1Binaire Ollama — télécharger depuis ollama.com pour votre OS. Version ≥0.3.0 recommandée.
- 2Fichier GGUF du modèle —
ollama pull qwen2.5:14b-instruct-q4_K_Msur la machine connectée. - 3Modèle d'embedding (pour RAG hors ligne) —
ollama pull nomic-embed-text. - 4Hash de vérification —
sha256sumsur chaque fichier GGUF avant transfert.
Commandes de téléchargement
Exécuter sur la machine connectée.
ollama pull qwen2.5:14b-instruct-q4_K_M— 9,5 Go, standard recommandéollama pull nomic-embed-text— 274 Mo, pour le RAG hors ligne
Workflow Ollama air-gap
Après transfert des fichiers sur la machine hors ligne :
- 1Copier l'ensemble du répertoire
~/.ollama/vers le même chemin sur l'hôte hors ligne. - 2Définir le répertoire :
export OLLAMA_MODELS=/chemin/vers/modèles - 3Démarrer le serveur :
ollama serve— vérifier l'absence d'appels réseau dans les logs. - 4Tester hors ligne :
ollama run qwen2.5:14b
Workflow llama.cpp air-gap
llama.cpp est autonome avec le binaire + GGUF.
- Transférer le binaire et le fichier GGUF.
- Exécuter :
./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080 - API compatible OpenAI disponible sur
http://localhost:8080/v1.
Dimensionnement NAS
Planifier 20 Go par modèle 7B, 50 Go par 14B, 100 Go par 32B en Q4_K_M.
RGPD & conformité hors ligne
Pour les déploiements conformes au RGPD en France, l'inférence locale simplifie les obligations.
- Pas de sous-traitance : L'inférence locale sans cloud ne nécessite pas de DPA selon l'Art. 28 RGPD.
- CNIL : Les traitements locaux uniquement internes ne nécessitent pas de notification spécifique à la CNIL.
- Journalisation : Ollama ne journalise pas les prompts par défaut. Si un journal d'audit est requis, ajouter un middleware local.
RAG hors ligne
RAG entièrement hors ligne nécessite : LLM local + modèle d'embedding local + base vectorielle locale.
- 1Modèle d'embedding :
ollama pull nomic-embed-textsur la machine connectée. - 2Base vectorielle : Chroma en binaire autonome ou Qdrant binary release.
- 3Flux de requêtes : Document → embedding nomic-embed → top-k chunks → Qwen2.5 → réponse. Zéro appel externe.
FAQ
Ollama effectue-t-il des appels réseau en mode hors ligne ?
Non. Ollama contacte ollama.com uniquement pour télécharger ou mettre à jour des modèles. ollama serve avec un cache local n'effectue aucune connexion sortante.
Ce déploiement est-il conforme au RGPD ?
Oui. L'inférence locale sans cloud ne nécessite pas de DPA selon l'Art. 28 RGPD, car aucune donnée n'est transmise à des tiers.