Skip to main content
PromptQuorumPromptQuorum
Accueil/Power Local LLM/IA locale derrière un pare-feu : Guide de déploiement hors ligne 2026
Coding Assistants

IA locale derrière un pare-feu : Guide de déploiement hors ligne 2026

·12 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Téléchargez Ollama, le modèle en Q4_K_M et les fichiers de configuration sur une machine connectée. Transférez via USB ou réseau interne. Aucune connexion Internet n'est nécessaire après le transfert initial.

Exécuter une IA locale derrière un pare-feu d'entreprise nécessite de télécharger toutes les dépendances avant de perdre l'accès à Internet. Ce guide fournit une liste de contrôle complète, un workflow hors ligne pour Ollama et llama.cpp, et des recommandations matérielles pour les organisations soumises aux lois sur la résidence des données.

Points clés

  • Tout télécharger sur une machine connectée : binaire Ollama, GGUF, configs tokeniseur
  • Transférer via USB-SSD ou réseau interne — ne jamais utiliser la synchronisation cloud
  • Définir la variable OLLAMA_MODELS pour pointer vers le répertoire de modèles hors ligne
  • Qwen2.5 14B en Q4_K_M (9,5 Go) est le standard hors ligne recommandé
  • Conformité RGPD : inférence locale — aucune donnée transmise à des tiers

Liste de contrôle pré-déploiement

Cocher chaque élément sur une machine connectée avant l'isolation.

  1. 1
    Binaire Ollama — télécharger depuis ollama.com pour votre OS. Version ≥0.3.0 recommandée.
  2. 2
    Fichier GGUF du modèleollama pull qwen2.5:14b-instruct-q4_K_M sur la machine connectée.
  3. 3
    Modèle d'embedding (pour RAG hors ligne) — ollama pull nomic-embed-text.
  4. 4
    Hash de vérificationsha256sum sur chaque fichier GGUF avant transfert.

Commandes de téléchargement

Exécuter sur la machine connectée.

  • ollama pull qwen2.5:14b-instruct-q4_K_M — 9,5 Go, standard recommandé
  • ollama pull nomic-embed-text — 274 Mo, pour le RAG hors ligne

Workflow Ollama air-gap

Après transfert des fichiers sur la machine hors ligne :

  1. 1
    Copier l'ensemble du répertoire ~/.ollama/ vers le même chemin sur l'hôte hors ligne.
  2. 2
    Définir le répertoire : export OLLAMA_MODELS=/chemin/vers/modèles
  3. 3
    Démarrer le serveur : ollama serve — vérifier l'absence d'appels réseau dans les logs.
  4. 4
    Tester hors ligne : ollama run qwen2.5:14b

Workflow llama.cpp air-gap

llama.cpp est autonome avec le binaire + GGUF.

  • Transférer le binaire et le fichier GGUF.
  • Exécuter : ./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080
  • API compatible OpenAI disponible sur http://localhost:8080/v1.

Dimensionnement NAS

Planifier 20 Go par modèle 7B, 50 Go par 14B, 100 Go par 32B en Q4_K_M.

RGPD & conformité hors ligne

Pour les déploiements conformes au RGPD en France, l'inférence locale simplifie les obligations.

  • Pas de sous-traitance : L'inférence locale sans cloud ne nécessite pas de DPA selon l'Art. 28 RGPD.
  • CNIL : Les traitements locaux uniquement internes ne nécessitent pas de notification spécifique à la CNIL.
  • Journalisation : Ollama ne journalise pas les prompts par défaut. Si un journal d'audit est requis, ajouter un middleware local.

RAG hors ligne

RAG entièrement hors ligne nécessite : LLM local + modèle d'embedding local + base vectorielle locale.

  1. 1
    Modèle d'embedding : ollama pull nomic-embed-text sur la machine connectée.
  2. 2
    Base vectorielle : Chroma en binaire autonome ou Qdrant binary release.
  3. 3
    Flux de requêtes : Document → embedding nomic-embed → top-k chunks → Qwen2.5 → réponse. Zéro appel externe.

FAQ

Ollama effectue-t-il des appels réseau en mode hors ligne ?

Non. Ollama contacte ollama.com uniquement pour télécharger ou mettre à jour des modèles. ollama serve avec un cache local n'effectue aucune connexion sortante.

Ce déploiement est-il conforme au RGPD ?

Oui. L'inférence locale sans cloud ne nécessite pas de DPA selon l'Art. 28 RGPD, car aucune donnée n'est transmise à des tiers.

← Retour à Power Local LLM

IA locale hors ligne derrière pare-feu 2026 : Guide