Guide : installer Qwen 3 en local avec Ollama 2026

9 minMis à jour 16 mai 2026Équipe éditoriale GuidePratiquefr

L'essentiel à retenir

Modèle : Qwen3-8B (5,2 Go), licence Apache 2.0, téléchargeable gratuitement via Ollama v0.23.4
Ce qu'il faut faire : Installer Ollama puis exécuter ollama pull qwen3:8b et ollama run qwen3:8b
Piège fréquent : Mode thinking activé par défaut → réponses en chinois ou vides sur certains prompts. Ajouter /no_think pour désactiver.
Délai : 5 minutes sur Mac M1/M2, 10 minutes sur Intel/AMD

Qwen 3 est un modèle d'IA open-source sous licence Apache 2.0, disponible en 9 tailles de 0,6 à 235 milliards de paramètres. Avec Ollama v0.23.4, vous pouvez faire tourner Qwen3-8B (5,2 Go) sur n'importe quel Mac ou PC avec 8 Go de RAM en moins de 10 minutes, sans GPU ni connexion internet après téléchargement. Documentation officielle Ollama Qwen3.

Ce que vous allez construire et pourquoi en 2026

Un assistant IA local qui répond à vos questions en français et en anglais, avec ou sans mode réflexion (thinking), sans envoyer aucune donnée à des serveurs externes. Qwen 3 est le premier modèle open-source à proposer un mode thinking désactivable : le modèle réfléchit avant de répondre quand vous le souhaitez, et répond directement sinon. Prérequis système : 8 Go de RAM minimum (4 Go pour le modèle 0.6B), macOS 12+ ou Ubuntu 22.04+ ou Windows 10+, 6 Go d'espace disque pour Qwen3-8B. Temps estimé : 5 minutes sur Mac M1/M2, 10 minutes sur Intel/AMD.

Installation : commandes exactes à copier

Ouvrez un terminal et exécutez :

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh # Windows : télécharger ollama.com/download puis double-cliquer # Vérifier l'installation
ollama --version
# Devrait afficher : 0.23.4 ou supérieur # Télécharger et lancer Qwen3-8B
ollama pull qwen3:8b # Lancer une conversation
ollama run qwen3:8b

Résultat attendu : le prompt >>> s'affiche. Vous pouvez taper votre question et appuyer sur Entrée. Erreur courante : Error: model requires more memory than available → utilisez un modèle plus petit : ollama pull qwen3:1.7b (1,4 Go) ou ollama pull qwen3:0.6b (523 Mo).

Configuration : les fichiers et variables à définir

Ollama stocke les modèles dans ~/.ollama/models/ (Linux/macOS) ou C:\Users\.ollama\models (Windows). Pour modifier le comportement de Qwen 3, créez un fichier Modelfile :

# Créer un modèle personnalisé
echo 'FROM qwen3:8b
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM Tu es un assistant francophone. Tu réponds en français de manière concise et factuelle.' > MonQwen3 # Construire et lancer
ollama create monqwen3 -f MonQwen3
ollama run monqwen3

Paramètres utiles : temperature (0 = déterministe, 1 = créatif), num_ctx (taille du contexte, par défaut 4096 tokens, max 40K pour Qwen3-8B), top_p (diversité des réponses, défaut 0.9). Pour le mode thinking (réflexion avant réponse), Qwen 3 l'active par défaut. Pour le désactiver : ajoutez /no_think dans votre prompt ou utilisez le paramètre PARAMETER think false dans votre Modelfile.

Le code du projet : construire une API locale avec Qwen 3

Créons une API REST en Python qui utilise Qwen 3 via l'API Ollama :

# Installation
pip install requests fastapi uvicorn # fichier api.py
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
import requests
import json app = FastAPI(title="Qwen 3 API Locale")
OLLAMA_URL = "http://localhost:11434" @app.get("/ask")
def ask(question: str, model: str = "qwen3:8b"): """Poser une question à Qwen 3 en local.""" response = requests.post(f"{OLLAMA_URL}/api/generate", json={"model": model, "prompt": question, "stream": False}, timeout=120 ) data = response.json() return {"question": question, "answer": data.get("response", ""), "model": model} @app.get("/chat")
def chat(message: str, model: str = "qwen3:8b"): """Chat avec contexte de conversation.""" response = requests.post(f"{OLLAMA_URL}/api/chat", json={"model": model, "messages": [{"role": "user", "content": message}], "stream": False}, timeout=120 ) data = response.json() return {"message": message, "response": data["message"]["content"], "model": model} @app.get("/models")
def list_models(): """Lister les modèles installés.""" r = requests.get(f"{OLLAMA_URL}/api/tags") return [m["name"] for m in r.json().get("models", [])]

Lancez avec uvicorn api:app --host 0.0.0.0 --port 8000. Testez : curl "http://localhost:8000/ask?question=Quelle+est+la+capitale+de+France". Erreur courante : Connection refused sur le port 11434 → Ollama n'est pas lancé, exécutez ollama serve dans un autre terminal.

Tester et valider que ça fonctionne

Vérification en 3 étapes :

# 1. Vérifier qu'Ollama répond
ollama list
# Devrait afficher qwen3:8b dans la liste # 2. Test rapide en CLI
echo "Quelle est la capitale de la France ?" | ollama run qwen3:8b
# Devrait répondre Paris en moins de 10 secondes # 3. Test via l'API
curl http://localhost:11434/api/generate -d '{ "model": "qwen3:8b", "prompt": "Dis bonjour en français", "stream": false
}'
# Devrait retourner un JSON avec {"response": "Bonjour ! ."}

Si la réponse est vide ou en chinois : c'est le bug #1384 connu. Solution : ajoutez /no_think à la fin de votre prompt, ou utilisez le paramètre "options": {"temperature": 0.7} dans votre requête API. Si le modèle répète en boucle : bug #925 — réduisez temperature à 0.3 et ajoutez "stop": ["\n\n\n"] dans votre requête.

Déployer et utiliser en production

Pour garder Qwen 3 actif en permanence sur un serveur Linux :

# Créer un service systemd
sudo tee /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama AI Server
After=network.target [Service]
Type=simple
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=3
User=ollama [Install]
WantedBy=multi-user.target
EOF sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama # Mise à jour vers une nouvelle version
curl -fsSL https://ollama.com/install.sh | sh # Télécharger un nouveau modèle
ollama pull qwen3:8b

Pour Docker : docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama. Pour surveiller l'utilisation mémoire : ollama ps affiche les modèles chargés en RAM et leur consommation.

Aller plus loin : 3 extensions concrètes

1. RAG avec vos propres documents : Installez pip install langchain chromadb et utilisez le script de notre guide Construire un RAG avec LangChain et Python en 30 minutes en remplaçant le modèle par qwen3:8b dans la configuration Ollama.

2. Interface web avec Open WebUI : docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main puis ouvrez http://localhost:3000 pour une interface ChatGPT-like locale.

3. Mode thinking avancé pour le code : Utilisez ollama run qwen3:30b (19 Go, modèle MoE avec 3B paramètres actifs) pour des tâches de programmation complexes. Le mode thinking de Qwen 3 produit un raisonnement détaillé avant la réponse finale, similaire à o1 d'OpenAI mais en local et gratuit.

Guide suivant

Construire un agent IA autonome avec CrewAI et Python en 2026

9 min de lecture

Étapes à suivre5

Étape 1 — Installer Ollama et télécharger Qwen 3
Ouvrez un terminal. Sur macOS et Linux, exécutez curl -fsSL https://ollama.com/install.sh | sh pour installer Ollama v0.23.4. Sur Windows, téléchargez l'installateur depuis ollama.com/download et double-cliquez. Vérifiez avec ollama --version — vous devez voir 0.23.4 ou supérieur. Ensuite, téléchargez le modèle : ollama pull qwen3:8b (5,2 Go). Le téléchargement prend 2 à 5 minutes selon votre connexion. Si votre RAM est limitée à 4 Go, utilisez ollama pull qwen3:1.7b (1,4 Go) ou ollama pull qwen3:0.6b (523 Mo). Vérifiez que le modèle est installé : ollama list doit afficher qwen3:8b. Si vous obtenez une erreur command not found, ajoutez Ollama au PATH : sur macOS et Linux, Ollama s'installe dans /usr/local/bin/ollama. Sur Windows, il s'ajoute automatiquement au PATH après l'installation. Si le téléchargement échoue avec une erreur de connexion, vérifiez votre pare-feu et assurez-vous que le port 443 est ouvert vers ollama.com.
Étape 2 — Configurer Qwen 3 avec un Modelfile personnalisé
Par défaut, Qwen 3 active le mode thinking (réflexion avant réponse). Pour un usage quotidien en français, créez un Modelfile personnalisé : créez un fichier texte MonQwen3 contenant FROM qwen3:8b, PARAMETER temperature 0.7, PARAMETER num_ctx 8192, et SYSTEM Tu es un assistant francophone. Tu réponds en français de manière concise et factuelle. Puis construisez le modèle : ollama create monqwen3 -f MonQwen3. Lancez-le : ollama run monqwen3. Les paramètres clés : temperature (0 pour déterministe, 1 pour créatif — défaut 0.6), num_ctx (taille du contexte, de 4096 à 40 000 tokens — défaut 4096), top_p (0.9 par défaut). Pour désactiver le mode thinking dans une conversation, tapez /no_think dans le prompt Ollama. Pour le réactiver : /think. Si vous obtenez des réponses en chinois (bug #1384), ajoutez explicitement SYSTEM Réponds uniquement en français dans votre Modelfile et utilisez /no_think pour éviter le mode réflexion qui peut basculer en mandarin.
Étape 3 — Construire une API locale avec FastAPI et Qwen 3
Installez les dépendances Python : pip install requests fastapi uvicorn. Créez le fichier api.py avec les routes suivantes : /ask (question simple via POST /api/generate), /chat (conversation avec contexte via POST /api/chat), /models (liste des modèles installés via GET /api/tags). L'API communique avec Ollama sur http://localhost:11434. Lancez avec uvicorn api:app --host 0.0.0.0 --port 8000. Testez : curl "http://localhost:8000/ask?question=Quelle+est+la+capitale+de+France". Le JSON retourné contient {"question": ".", "answer": "Paris est la capitale de la France.", "model": "qwen3:8b"}. Pour le streaming (réponse progressive), ajoutez "stream": true dans la requête Ollama et utilisez StreamingResponse de FastAPI. Erreur courante : Connection refused sur le port 11434 → lancez ollama serve dans un terminal séparé avant de démarrer l'API. Pour un usage avec Python directement (sans API REST), installez pip install transformers torch et chargez le modèle avec AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-8B").
Étape 4 — Tester, debugger et optimiser Qwen 3
Vérification en 3 étapes. (1) ollama list doit afficher qwen3:8b dans la liste des modèles. (2) echo "Bonjour, qui es-tu ?" | ollama run qwen3:8b doit répondre en français en moins de 10 secondes. (3) curl http://localhost:11434/api/generate -d '{"model": "qwen3:8b", "prompt": "Dis bonjour", "stream": false}' doit retourner un JSON valide avec une réponse. Si le modèle répète en boucle (bug #925, 20 commentaires sur GitHub) : réduisez temperature à 0.3 et ajoutez "stop": ["\n\n\n"] dans la requête. Si les réponses sont en chinois (bug #1384) : ajoutez /no_think et précisez SYSTEM Réponds en français. Si le function calling échoue en streaming (bug #1568, 23 commentaires) : désactivez le streaming pour les appels de fonction ou utilisez vLLM en version >=0.9.0. Pour surveiller la mémoire : ollama ps affiche les modèles chargés et leur consommation RAM. Qwen3-8B consomme environ 5,2 Go de RAM en utilisation, 5,2 Go de VRAM sur GPU.
Étape 5 — Déployer Qwen 3 en production avec systemd ou Docker
Pour un serveur Linux en production, créez un service systemd : écrivez le fichier /etc/systemd/system/ollama.service avec les sections [Unit] (After=network.target), [Service] (ExecStart=/usr/local/bin/ollama serve, Restart=always, RestartSec=3, User=ollama), et [Install] (WantedBy=multi-user.target). Puis sudo systemctl daemon-reload && sudo systemctl enable ollama && sudo systemctl start ollama. Pour Docker : docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama. Pour mettre à jour Ollama : curl -fsSL https://ollama.com/install.sh | sh (met à jour le binaire) puis ollama pull qwen3:8b (met à jour le modèle si une nouvelle version est disponible). Pour ajouter une interface web style ChatGPT : docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main puis ouvrez http://localhost:3000. Pour monitorer : ollama ps pour les modèles actifs, et docker stats ollama pour la consommation CPU/RAM du conteneur.

Conseils pratiques

Utilisez ollama run qwen3:30b (19 Go) pour les tâches complexes : c'est un modèle MoE qui n'active que 3 milliards de paramètres, donc aussi rapide que Qwen3-8B mais plus performant en raisonnement.
Pour désactiver le mode thinking dans l'API Ollama, ajoutez "options": {"num_predict": -1} et terminez votre prompt par /no_think. Cela réduit la latence de 50% en moyenne.
Augmentez le contexte à 40 000 tokens avec PARAMETER num_ctx 40000 dans votre Modelfile pour analyser des documents longs. Attention : cela consomme plus de RAM (environ 12 Go pour 40K tokens sur Qwen3-8B).

Points d'attention

Erreur Error: model requires more memory than available : votre RAM est insuffisante. Solution : passez à un modèle plus petit avec ollama pull qwen3:1.7b (1,4 Go) ou ollama pull qwen3:0.6b (523 Mo).
Réponses en chinois ou caractères illisibles (bug #1384) : Qwen 3 peut basculer en mandarin en mode thinking. Solution : ajoutez /no_think à votre prompt ou SYSTEM Réponds uniquement en français dans le Modelfile.
Le modèle répète en boucle sans s'arrêter (bug #925) : réduisez temperature à 0.3 et ajoutez "stop": ["\n\n\n"] dans votre requête API. Si le problème persiste, utilisez qwen3:30b qui est plus stable.

Questions fréquentes5

Qwen 3 fonctionne-t-il sans GPU ?

Oui. Qwen3-8B tourne sur CPU avec 8 Go de RAM via Ollama. La génération est plus lente sur CPU (5 à 15 tokens/seconde) que sur GPU (30 à 80 tokens/seconde). Pour le modèle 30B MoE, 16 Go de RAM sont nécessaires sur CPU, ou 12 Go de VRAM sur GPU.

Quelle version de Python est nécessaire pour Qwen 3 ?

Python 3.10 ou supérieur est requis pour la bibliothèque transformers (>=4.51.0). PyTorch 2.6+ est recommandé. Avec Ollama, Python n est pas nécessaire — l API utilise le protocole HTTP sur le port 11434.

Qwen 3 est-il gratuit et open-source ?

Oui. Qwen 3 est sous licence Apache 2.0, qui autorise l utilisation commerciale, la modification et la redistribution sans restriction. Contrairement aux anciens modèles Qwen (Qwen-7B sous licence restrictive limitant l usage commercial), Qwen 3 est entièrement libre. Les 9 tailles de modèles (0.6B à 235B) sont toutes gratuites sur ollama.com/library/qwen3.

Comment debugger si Qwen 3 ne démarre pas ?

Exécutez ollama serve dans un terminal pour voir les logs en temps réel. Les erreurs fréquentes : port 11434 already in use (un autre processus Ollama tourne — tuez-le avec killall ollama), out of memory (modèle trop gros — utilisez qwen3:1.7b), model not found (exécutez ollama pull qwen3:8b d abord).

Qwen 3 vs Llama 3 : lequel choisir ?

Qwen 3-8B est meilleur en multilingue (français, chinois, anglais) et propose le mode thinking. Llama 3.1-8B est meilleur en anglais pur. Pour un usage en français, Qwen 3 est supérieur. Pour le code, Qwen3-30B MoE égale Llama 3.1-70B sur les benchmarks de programmation tout en nécessitant 4 fois moins de RAM.

Guides Technologie & IA

Voir tout

Multi-catégories

Technologie

Construire un agent IA autonome avec CrewAI et Python en 2026

9 min

Technologie

Construire un pipeline CI/CD avec GitHub Actions en 2026

10 min

Technologie

Deployer une application multi-conteneurs avec Docker Compose en 2026

9 min

Équipe éditoriale GuidePratiquefr

Rédacteurs spécialisés en droit, fiscalité et finances

Rédigé et vérifié par notre équipe de rédacteurs spécialisés. Sources officielles consultées : service-public.fr, legifrance.gouv.fr, impots.gouv.fr, ameli.fr. Dernière vérification : 16 mai 2026.

Sources officielles consultées

Les informations contenues dans ce guide sont fournies à titre indicatif et ne remplacent pas un conseil professionnel personnalisé.

9 minMis à jour 16 mai 2026Équipe éditoriale GuidePratiquefr

L'essentiel à retenir

Modèle : Qwen3-8B (5,2 Go), licence Apache 2.0, téléchargeable gratuitement via Ollama v0.23.4
Ce qu'il faut faire : Installer Ollama puis exécuter ollama pull qwen3:8b et ollama run qwen3:8b
Piège fréquent : Mode thinking activé par défaut → réponses en chinois ou vides sur certains prompts. Ajouter /no_think pour désactiver.
Délai : 5 minutes sur Mac M1/M2, 10 minutes sur Intel/AMD

Ce que vous allez construire et pourquoi en 2026

Installation : commandes exactes à copier

Ouvrez un terminal et exécutez :

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh # Windows : télécharger ollama.com/download puis double-cliquer # Vérifier l'installation
ollama --version
# Devrait afficher : 0.23.4 ou supérieur # Télécharger et lancer Qwen3-8B
ollama pull qwen3:8b # Lancer une conversation
ollama run qwen3:8b

Configuration : les fichiers et variables à définir

Ollama stocke les modèles dans ~/.ollama/models/ (Linux/macOS) ou C:\Users\.ollama\models (Windows). Pour modifier le comportement de Qwen 3, créez un fichier Modelfile :

# Créer un modèle personnalisé
echo 'FROM qwen3:8b
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM Tu es un assistant francophone. Tu réponds en français de manière concise et factuelle.' > MonQwen3 # Construire et lancer
ollama create monqwen3 -f MonQwen3
ollama run monqwen3

Le code du projet : construire une API locale avec Qwen 3

Créons une API REST en Python qui utilise Qwen 3 via l'API Ollama :

# Installation
pip install requests fastapi uvicorn # fichier api.py
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
import requests
import json app = FastAPI(title="Qwen 3 API Locale")
OLLAMA_URL = "http://localhost:11434" @app.get("/ask")
def ask(question: str, model: str = "qwen3:8b"): """Poser une question à Qwen 3 en local.""" response = requests.post(f"{OLLAMA_URL}/api/generate", json={"model": model, "prompt": question, "stream": False}, timeout=120 ) data = response.json() return {"question": question, "answer": data.get("response", ""), "model": model} @app.get("/chat")
def chat(message: str, model: str = "qwen3:8b"): """Chat avec contexte de conversation.""" response = requests.post(f"{OLLAMA_URL}/api/chat", json={"model": model, "messages": [{"role": "user", "content": message}], "stream": False}, timeout=120 ) data = response.json() return {"message": message, "response": data["message"]["content"], "model": model} @app.get("/models")
def list_models(): """Lister les modèles installés.""" r = requests.get(f"{OLLAMA_URL}/api/tags") return [m["name"] for m in r.json().get("models", [])]

Tester et valider que ça fonctionne

Vérification en 3 étapes :

# 1. Vérifier qu'Ollama répond
ollama list
# Devrait afficher qwen3:8b dans la liste # 2. Test rapide en CLI
echo "Quelle est la capitale de la France ?" | ollama run qwen3:8b
# Devrait répondre Paris en moins de 10 secondes # 3. Test via l'API
curl http://localhost:11434/api/generate -d '{ "model": "qwen3:8b", "prompt": "Dis bonjour en français", "stream": false
}'
# Devrait retourner un JSON avec {"response": "Bonjour ! ."}

Déployer et utiliser en production

Pour garder Qwen 3 actif en permanence sur un serveur Linux :

# Créer un service systemd
sudo tee /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama AI Server
After=network.target [Service]
Type=simple
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=3
User=ollama [Install]
WantedBy=multi-user.target
EOF sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama # Mise à jour vers une nouvelle version
curl -fsSL https://ollama.com/install.sh | sh # Télécharger un nouveau modèle
ollama pull qwen3:8b

Aller plus loin : 3 extensions concrètes

Guide suivant

Construire un agent IA autonome avec CrewAI et Python en 2026

9 min de lecture

Étapes à suivre5

Étape 1 — Installer Ollama et télécharger Qwen 3
Ouvrez un terminal. Sur macOS et Linux, exécutez curl -fsSL https://ollama.com/install.sh | sh pour installer Ollama v0.23.4. Sur Windows, téléchargez l'installateur depuis ollama.com/download et double-cliquez. Vérifiez avec ollama --version — vous devez voir 0.23.4 ou supérieur. Ensuite, téléchargez le modèle : ollama pull qwen3:8b (5,2 Go). Le téléchargement prend 2 à 5 minutes selon votre connexion. Si votre RAM est limitée à 4 Go, utilisez ollama pull qwen3:1.7b (1,4 Go) ou ollama pull qwen3:0.6b (523 Mo). Vérifiez que le modèle est installé : ollama list doit afficher qwen3:8b. Si vous obtenez une erreur command not found, ajoutez Ollama au PATH : sur macOS et Linux, Ollama s'installe dans /usr/local/bin/ollama. Sur Windows, il s'ajoute automatiquement au PATH après l'installation. Si le téléchargement échoue avec une erreur de connexion, vérifiez votre pare-feu et assurez-vous que le port 443 est ouvert vers ollama.com.
Étape 2 — Configurer Qwen 3 avec un Modelfile personnalisé
Par défaut, Qwen 3 active le mode thinking (réflexion avant réponse). Pour un usage quotidien en français, créez un Modelfile personnalisé : créez un fichier texte MonQwen3 contenant FROM qwen3:8b, PARAMETER temperature 0.7, PARAMETER num_ctx 8192, et SYSTEM Tu es un assistant francophone. Tu réponds en français de manière concise et factuelle. Puis construisez le modèle : ollama create monqwen3 -f MonQwen3. Lancez-le : ollama run monqwen3. Les paramètres clés : temperature (0 pour déterministe, 1 pour créatif — défaut 0.6), num_ctx (taille du contexte, de 4096 à 40 000 tokens — défaut 4096), top_p (0.9 par défaut). Pour désactiver le mode thinking dans une conversation, tapez /no_think dans le prompt Ollama. Pour le réactiver : /think. Si vous obtenez des réponses en chinois (bug #1384), ajoutez explicitement SYSTEM Réponds uniquement en français dans votre Modelfile et utilisez /no_think pour éviter le mode réflexion qui peut basculer en mandarin.
Étape 3 — Construire une API locale avec FastAPI et Qwen 3
Installez les dépendances Python : pip install requests fastapi uvicorn. Créez le fichier api.py avec les routes suivantes : /ask (question simple via POST /api/generate), /chat (conversation avec contexte via POST /api/chat), /models (liste des modèles installés via GET /api/tags). L'API communique avec Ollama sur http://localhost:11434. Lancez avec uvicorn api:app --host 0.0.0.0 --port 8000. Testez : curl "http://localhost:8000/ask?question=Quelle+est+la+capitale+de+France". Le JSON retourné contient {"question": ".", "answer": "Paris est la capitale de la France.", "model": "qwen3:8b"}. Pour le streaming (réponse progressive), ajoutez "stream": true dans la requête Ollama et utilisez StreamingResponse de FastAPI. Erreur courante : Connection refused sur le port 11434 → lancez ollama serve dans un terminal séparé avant de démarrer l'API. Pour un usage avec Python directement (sans API REST), installez pip install transformers torch et chargez le modèle avec AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-8B").
Étape 4 — Tester, debugger et optimiser Qwen 3
Vérification en 3 étapes. (1) ollama list doit afficher qwen3:8b dans la liste des modèles. (2) echo "Bonjour, qui es-tu ?" | ollama run qwen3:8b doit répondre en français en moins de 10 secondes. (3) curl http://localhost:11434/api/generate -d '{"model": "qwen3:8b", "prompt": "Dis bonjour", "stream": false}' doit retourner un JSON valide avec une réponse. Si le modèle répète en boucle (bug #925, 20 commentaires sur GitHub) : réduisez temperature à 0.3 et ajoutez "stop": ["\n\n\n"] dans la requête. Si les réponses sont en chinois (bug #1384) : ajoutez /no_think et précisez SYSTEM Réponds en français. Si le function calling échoue en streaming (bug #1568, 23 commentaires) : désactivez le streaming pour les appels de fonction ou utilisez vLLM en version >=0.9.0. Pour surveiller la mémoire : ollama ps affiche les modèles chargés et leur consommation RAM. Qwen3-8B consomme environ 5,2 Go de RAM en utilisation, 5,2 Go de VRAM sur GPU.
Étape 5 — Déployer Qwen 3 en production avec systemd ou Docker
Pour un serveur Linux en production, créez un service systemd : écrivez le fichier /etc/systemd/system/ollama.service avec les sections [Unit] (After=network.target), [Service] (ExecStart=/usr/local/bin/ollama serve, Restart=always, RestartSec=3, User=ollama), et [Install] (WantedBy=multi-user.target). Puis sudo systemctl daemon-reload && sudo systemctl enable ollama && sudo systemctl start ollama. Pour Docker : docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama. Pour mettre à jour Ollama : curl -fsSL https://ollama.com/install.sh | sh (met à jour le binaire) puis ollama pull qwen3:8b (met à jour le modèle si une nouvelle version est disponible). Pour ajouter une interface web style ChatGPT : docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main puis ouvrez http://localhost:3000. Pour monitorer : ollama ps pour les modèles actifs, et docker stats ollama pour la consommation CPU/RAM du conteneur.

Conseils pratiques

Utilisez ollama run qwen3:30b (19 Go) pour les tâches complexes : c'est un modèle MoE qui n'active que 3 milliards de paramètres, donc aussi rapide que Qwen3-8B mais plus performant en raisonnement.
Pour désactiver le mode thinking dans l'API Ollama, ajoutez "options": {"num_predict": -1} et terminez votre prompt par /no_think. Cela réduit la latence de 50% en moyenne.
Augmentez le contexte à 40 000 tokens avec PARAMETER num_ctx 40000 dans votre Modelfile pour analyser des documents longs. Attention : cela consomme plus de RAM (environ 12 Go pour 40K tokens sur Qwen3-8B).

Points d'attention

Erreur Error: model requires more memory than available : votre RAM est insuffisante. Solution : passez à un modèle plus petit avec ollama pull qwen3:1.7b (1,4 Go) ou ollama pull qwen3:0.6b (523 Mo).
Réponses en chinois ou caractères illisibles (bug #1384) : Qwen 3 peut basculer en mandarin en mode thinking. Solution : ajoutez /no_think à votre prompt ou SYSTEM Réponds uniquement en français dans le Modelfile.
Le modèle répète en boucle sans s'arrêter (bug #925) : réduisez temperature à 0.3 et ajoutez "stop": ["\n\n\n"] dans votre requête API. Si le problème persiste, utilisez qwen3:30b qui est plus stable.

Questions fréquentes5

Qwen 3 fonctionne-t-il sans GPU ?

Quelle version de Python est nécessaire pour Qwen 3 ?

Qwen 3 est-il gratuit et open-source ?

Comment debugger si Qwen 3 ne démarre pas ?

Qwen 3 vs Llama 3 : lequel choisir ?

Guides Technologie & IA

Voir tout

Construire un chatbot local avec Ollama et Python en 30 minutes

8 min

Utiliser DeepSeek V4 en 2026 pour améliorer la recherche

6 min

Utiliser Claude Opus 4.7 en 2026 pour améliorer la productivité

8 min

Comment créer et gérer ses mots de passe de manière sécurisée en 2026

13 min

Comment utiliser Ollama en 2026

4 min

Multi-catégories

Technologie

Construire un agent IA autonome avec CrewAI et Python en 2026

9 min

Technologie

Construire un pipeline CI/CD avec GitHub Actions en 2026

10 min

Technologie

Deployer une application multi-conteneurs avec Docker Compose en 2026

9 min

Équipe éditoriale GuidePratiquefr

Rédacteurs spécialisés en droit, fiscalité et finances

Sources officielles consultées

Les informations contenues dans ce guide sont fournies à titre indicatif et ne remplacent pas un conseil professionnel personnalisé.

Utiliser Qwen 3 en local avec Ollama : guide complet 2026

Introduction

Ce que vous allez construire et pourquoi en 2026

Installation : commandes exactes à copier

Configuration : les fichiers et variables à définir

Le code du projet : construire une API locale avec Qwen 3

Tester et valider que ça fonctionne

Déployer et utiliser en production

Aller plus loin : 3 extensions concrètes

Construire un agent IA autonome avec CrewAI et Python en 2026

Étapes à suivre5

Étape 1 — Installer Ollama et télécharger Qwen 3

Étape 2 — Configurer Qwen 3 avec un Modelfile personnalisé

Étape 3 — Construire une API locale avec FastAPI et Qwen 3

Étape 4 — Tester, debugger et optimiser Qwen 3

Étape 5 — Déployer Qwen 3 en production avec systemd ou Docker

Conseils pratiques

Points d'attention

Questions fréquentes5

Qwen 3 fonctionne-t-il sans GPU ?

Quelle version de Python est nécessaire pour Qwen 3 ?

Qwen 3 est-il gratuit et open-source ?

Comment debugger si Qwen 3 ne démarre pas ?

Qwen 3 vs Llama 3 : lequel choisir ?

Guides Technologie & IA

Construire un chatbot local avec Ollama et Python en 30 minutes

Utiliser DeepSeek V4 en 2026 pour améliorer la recherche

Utiliser Claude Opus 4.7 en 2026 pour améliorer la productivité

Comment créer et gérer ses mots de passe de manière sécurisée en 2026

Comment utiliser Ollama en 2026

Poursuivez votre lecture

Construire un agent IA autonome avec CrewAI et Python en 2026

Construire un pipeline CI/CD avec GitHub Actions en 2026

Deployer une application multi-conteneurs avec Docker Compose en 2026

Sources officielles consultées

À propos

Une question ?

Utiliser Qwen 3 en local avec Ollama : guide complet 2026

Introduction

Ce que vous allez construire et pourquoi en 2026

Installation : commandes exactes à copier

Configuration : les fichiers et variables à définir

Le code du projet : construire une API locale avec Qwen 3

Tester et valider que ça fonctionne

Déployer et utiliser en production

Aller plus loin : 3 extensions concrètes

Construire un agent IA autonome avec CrewAI et Python en 2026

Étapes à suivre5

Étape 1 — Installer Ollama et télécharger Qwen 3

Étape 2 — Configurer Qwen 3 avec un Modelfile personnalisé

Étape 3 — Construire une API locale avec FastAPI et Qwen 3

Étape 4 — Tester, debugger et optimiser Qwen 3

Étape 5 — Déployer Qwen 3 en production avec systemd ou Docker

Conseils pratiques

Points d'attention

Questions fréquentes5

Qwen 3 fonctionne-t-il sans GPU ?

Quelle version de Python est nécessaire pour Qwen 3 ?

Qwen 3 est-il gratuit et open-source ?

Comment debugger si Qwen 3 ne démarre pas ?

Qwen 3 vs Llama 3 : lequel choisir ?

Guides Technologie & IA

Construire un chatbot local avec Ollama et Python en 30 minutes

Utiliser DeepSeek V4 en 2026 pour améliorer la recherche

Utiliser Claude Opus 4.7 en 2026 pour améliorer la productivité

Comment créer et gérer ses mots de passe de manière sécurisée en 2026

Comment utiliser Ollama en 2026

Poursuivez votre lecture

Construire un agent IA autonome avec CrewAI et Python en 2026

Construire un pipeline CI/CD avec GitHub Actions en 2026

Deployer une application multi-conteneurs avec Docker Compose en 2026

Sources officielles consultées

À propos

Une question ?