- Modèle : Qwen3-8B (5,2 Go), licence Apache 2.0, téléchargeable gratuitement via Ollama v0.23.4
- Ce qu'il faut faire : Installer Ollama puis exécuter
ollama pull qwen3:8betollama run qwen3:8b - Piège fréquent : Mode thinking activé par défaut → réponses en chinois ou vides sur certains prompts. Ajouter
/no_thinkpour désactiver. - Délai : 5 minutes sur Mac M1/M2, 10 minutes sur Intel/AMD
Introduction
Qwen 3 est un modèle d'IA open-source sous licence Apache 2.0, disponible en 9 tailles de 0,6 à 235 milliards de paramètres. Avec Ollama v0.23.4, vous pouvez faire tourner Qwen3-8B (5,2 Go) sur n'importe quel Mac ou PC avec 8 Go de RAM en moins de 10 minutes, sans GPU ni connexion internet après téléchargement. Documentation officielle Ollama Qwen3.
Ce que vous allez construire et pourquoi en 2026
Un assistant IA local qui répond à vos questions en français et en anglais, avec ou sans mode réflexion (thinking), sans envoyer aucune donnée à des serveurs externes. Qwen 3 est le premier modèle open-source à proposer un mode thinking désactivable : le modèle réfléchit avant de répondre quand vous le souhaitez, et répond directement sinon. Prérequis système : 8 Go de RAM minimum (4 Go pour le modèle 0.6B), macOS 12+ ou Ubuntu 22.04+ ou Windows 10+, 6 Go d'espace disque pour Qwen3-8B. Temps estimé : 5 minutes sur Mac M1/M2, 10 minutes sur Intel/AMD.
Installation : commandes exactes à copier
Ouvrez un terminal et exécutez :
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh # Windows : télécharger ollama.com/download puis double-cliquer # Vérifier l'installation
ollama --version
# Devrait afficher : 0.23.4 ou supérieur # Télécharger et lancer Qwen3-8B
ollama pull qwen3:8b # Lancer une conversation
ollama run qwen3:8b
Résultat attendu : le prompt >>> s'affiche. Vous pouvez taper votre question et appuyer sur Entrée. Erreur courante : Error: model requires more memory than available → utilisez un modèle plus petit : ollama pull qwen3:1.7b (1,4 Go) ou ollama pull qwen3:0.6b (523 Mo).
Configuration : les fichiers et variables à définir
Ollama stocke les modèles dans ~/.ollama/models/ (Linux/macOS) ou C:\Users\.ollama\models (Windows). Pour modifier le comportement de Qwen 3, créez un fichier Modelfile :
# Créer un modèle personnalisé
echo 'FROM qwen3:8b
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
SYSTEM Tu es un assistant francophone. Tu réponds en français de manière concise et factuelle.' > MonQwen3 # Construire et lancer
ollama create monqwen3 -f MonQwen3
ollama run monqwen3
Paramètres utiles : temperature (0 = déterministe, 1 = créatif), num_ctx (taille du contexte, par défaut 4096 tokens, max 40K pour Qwen3-8B), top_p (diversité des réponses, défaut 0.9). Pour le mode thinking (réflexion avant réponse), Qwen 3 l'active par défaut. Pour le désactiver : ajoutez /no_think dans votre prompt ou utilisez le paramètre PARAMETER think false dans votre Modelfile.
Le code du projet : construire une API locale avec Qwen 3
Créons une API REST en Python qui utilise Qwen 3 via l'API Ollama :
# Installation
pip install requests fastapi uvicorn # fichier api.py
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
import requests
import json app = FastAPI(title="Qwen 3 API Locale")
OLLAMA_URL = "http://localhost:11434" @app.get("/ask")
def ask(question: str, model: str = "qwen3:8b"): """Poser une question à Qwen 3 en local.""" response = requests.post(f"{OLLAMA_URL}/api/generate", json={"model": model, "prompt": question, "stream": False}, timeout=120 ) data = response.json() return {"question": question, "answer": data.get("response", ""), "model": model} @app.get("/chat")
def chat(message: str, model: str = "qwen3:8b"): """Chat avec contexte de conversation.""" response = requests.post(f"{OLLAMA_URL}/api/chat", json={"model": model, "messages": [{"role": "user", "content": message}], "stream": False}, timeout=120 ) data = response.json() return {"message": message, "response": data["message"]["content"], "model": model} @app.get("/models")
def list_models(): """Lister les modèles installés.""" r = requests.get(f"{OLLAMA_URL}/api/tags") return [m["name"] for m in r.json().get("models", [])]
Lancez avec uvicorn api:app --host 0.0.0.0 --port 8000. Testez : curl "http://localhost:8000/ask?question=Quelle+est+la+capitale+de+France". Erreur courante : Connection refused sur le port 11434 → Ollama n'est pas lancé, exécutez ollama serve dans un autre terminal.
Tester et valider que ça fonctionne
Vérification en 3 étapes :
# 1. Vérifier qu'Ollama répond
ollama list
# Devrait afficher qwen3:8b dans la liste # 2. Test rapide en CLI
echo "Quelle est la capitale de la France ?" | ollama run qwen3:8b
# Devrait répondre Paris en moins de 10 secondes # 3. Test via l'API
curl http://localhost:11434/api/generate -d '{ "model": "qwen3:8b", "prompt": "Dis bonjour en français", "stream": false
}'
# Devrait retourner un JSON avec {"response": "Bonjour ! ."}
Si la réponse est vide ou en chinois : c'est le bug #1384 connu. Solution : ajoutez /no_think à la fin de votre prompt, ou utilisez le paramètre "options": {"temperature": 0.7} dans votre requête API. Si le modèle répète en boucle : bug #925 — réduisez temperature à 0.3 et ajoutez "stop": ["\n\n\n"] dans votre requête.
Déployer et utiliser en production
Pour garder Qwen 3 actif en permanence sur un serveur Linux :
# Créer un service systemd
sudo tee /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama AI Server
After=network.target [Service]
Type=simple
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=3
User=ollama [Install]
WantedBy=multi-user.target
EOF sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama # Mise à jour vers une nouvelle version
curl -fsSL https://ollama.com/install.sh | sh # Télécharger un nouveau modèle
ollama pull qwen3:8b
Pour Docker : docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama. Pour surveiller l'utilisation mémoire : ollama ps affiche les modèles chargés en RAM et leur consommation.
Aller plus loin : 3 extensions concrètes
1. RAG avec vos propres documents : Installez pip install langchain chromadb et utilisez le script de notre guide Construire un RAG avec LangChain et Python en 30 minutes en remplaçant le modèle par qwen3:8b dans la configuration Ollama.
2. Interface web avec Open WebUI : docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main puis ouvrez http://localhost:3000 pour une interface ChatGPT-like locale.
3. Mode thinking avancé pour le code : Utilisez ollama run qwen3:30b (19 Go, modèle MoE avec 3B paramètres actifs) pour des tâches de programmation complexes. Le mode thinking de Qwen 3 produit un raisonnement détaillé avant la réponse finale, similaire à o1 d'OpenAI mais en local et gratuit.
Étapes à suivre5
Étape 1 — Installer Ollama et télécharger Qwen 3
Ouvrez un terminal. Sur macOS et Linux, exécutezcurl -fsSL https://ollama.com/install.sh | shpour installer Ollama v0.23.4. Sur Windows, téléchargez l'installateur depuis ollama.com/download et double-cliquez. Vérifiez avecollama --version— vous devez voir 0.23.4 ou supérieur. Ensuite, téléchargez le modèle :ollama pull qwen3:8b(5,2 Go). Le téléchargement prend 2 à 5 minutes selon votre connexion. Si votre RAM est limitée à 4 Go, utilisezollama pull qwen3:1.7b(1,4 Go) ouollama pull qwen3:0.6b(523 Mo). Vérifiez que le modèle est installé :ollama listdoit afficherqwen3:8b. Si vous obtenez une erreurcommand not found, ajoutez Ollama au PATH : sur macOS et Linux, Ollama s'installe dans/usr/local/bin/ollama. Sur Windows, il s'ajoute automatiquement au PATH après l'installation. Si le téléchargement échoue avec une erreur de connexion, vérifiez votre pare-feu et assurez-vous que le port 443 est ouvert vers ollama.com.Étape 2 — Configurer Qwen 3 avec un Modelfile personnalisé
Par défaut, Qwen 3 active le mode thinking (réflexion avant réponse). Pour un usage quotidien en français, créez un Modelfile personnalisé : créez un fichier texteMonQwen3contenantFROM qwen3:8b,PARAMETER temperature 0.7,PARAMETER num_ctx 8192, etSYSTEM Tu es un assistant francophone. Tu réponds en français de manière concise et factuelle.Puis construisez le modèle :ollama create monqwen3 -f MonQwen3. Lancez-le :ollama run monqwen3. Les paramètres clés :temperature(0 pour déterministe, 1 pour créatif — défaut 0.6),num_ctx(taille du contexte, de 4096 à 40 000 tokens — défaut 4096),top_p(0.9 par défaut). Pour désactiver le mode thinking dans une conversation, tapez/no_thinkdans le prompt Ollama. Pour le réactiver :/think. Si vous obtenez des réponses en chinois (bug #1384), ajoutez explicitementSYSTEM Réponds uniquement en françaisdans votre Modelfile et utilisez/no_thinkpour éviter le mode réflexion qui peut basculer en mandarin.Étape 3 — Construire une API locale avec FastAPI et Qwen 3
Installez les dépendances Python :pip install requests fastapi uvicorn. Créez le fichierapi.pyavec les routes suivantes :/ask(question simple viaPOST /api/generate),/chat(conversation avec contexte viaPOST /api/chat),/models(liste des modèles installés viaGET /api/tags). L'API communique avec Ollama surhttp://localhost:11434. Lancez avecuvicorn api:app --host 0.0.0.0 --port 8000. Testez :curl "http://localhost:8000/ask?question=Quelle+est+la+capitale+de+France". Le JSON retourné contient{"question": ".", "answer": "Paris est la capitale de la France.", "model": "qwen3:8b"}. Pour le streaming (réponse progressive), ajoutez"stream": truedans la requête Ollama et utilisezStreamingResponsede FastAPI. Erreur courante :Connection refusedsur le port 11434 → lancezollama servedans un terminal séparé avant de démarrer l'API. Pour un usage avec Python directement (sans API REST), installezpip install transformers torchet chargez le modèle avecAutoModelForCausalLM.from_pretrained("Qwen/Qwen3-8B").Étape 4 — Tester, debugger et optimiser Qwen 3
Vérification en 3 étapes. (1)ollama listdoit afficher qwen3:8b dans la liste des modèles. (2)echo "Bonjour, qui es-tu ?" | ollama run qwen3:8bdoit répondre en français en moins de 10 secondes. (3)curl http://localhost:11434/api/generate -d '{"model": "qwen3:8b", "prompt": "Dis bonjour", "stream": false}'doit retourner un JSON valide avec une réponse. Si le modèle répète en boucle (bug #925, 20 commentaires sur GitHub) : réduisez temperature à 0.3 et ajoutez"stop": ["\n\n\n"]dans la requête. Si les réponses sont en chinois (bug #1384) : ajoutez/no_thinket précisezSYSTEM Réponds en français. Si le function calling échoue en streaming (bug #1568, 23 commentaires) : désactivez le streaming pour les appels de fonction ou utilisez vLLM en version >=0.9.0. Pour surveiller la mémoire :ollama psaffiche les modèles chargés et leur consommation RAM. Qwen3-8B consomme environ 5,2 Go de RAM en utilisation, 5,2 Go de VRAM sur GPU.Étape 5 — Déployer Qwen 3 en production avec systemd ou Docker
Pour un serveur Linux en production, créez un service systemd : écrivez le fichier/etc/systemd/system/ollama.serviceavec les sections[Unit](After=network.target),[Service](ExecStart=/usr/local/bin/ollama serve, Restart=always, RestartSec=3, User=ollama), et[Install](WantedBy=multi-user.target). Puissudo systemctl daemon-reload && sudo systemctl enable ollama && sudo systemctl start ollama. Pour Docker :docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama. Pour mettre à jour Ollama :curl -fsSL https://ollama.com/install.sh | sh(met à jour le binaire) puisollama pull qwen3:8b(met à jour le modèle si une nouvelle version est disponible). Pour ajouter une interface web style ChatGPT :docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:mainpuis ouvrezhttp://localhost:3000. Pour monitorer :ollama pspour les modèles actifs, etdocker stats ollamapour la consommation CPU/RAM du conteneur.
Conseils pratiques
- Utilisez
ollama run qwen3:30b(19 Go) pour les tâches complexes : c'est un modèle MoE qui n'active que 3 milliards de paramètres, donc aussi rapide que Qwen3-8B mais plus performant en raisonnement. - Pour désactiver le mode thinking dans l'API Ollama, ajoutez
"options": {"num_predict": -1}et terminez votre prompt par/no_think. Cela réduit la latence de 50% en moyenne. - Augmentez le contexte à 40 000 tokens avec
PARAMETER num_ctx 40000dans votre Modelfile pour analyser des documents longs. Attention : cela consomme plus de RAM (environ 12 Go pour 40K tokens sur Qwen3-8B).
Points d'attention
- Erreur
Error: model requires more memory than available: votre RAM est insuffisante. Solution : passez à un modèle plus petit avecollama pull qwen3:1.7b(1,4 Go) ouollama pull qwen3:0.6b(523 Mo). - Réponses en chinois ou caractères illisibles (bug #1384) : Qwen 3 peut basculer en mandarin en mode thinking. Solution : ajoutez
/no_thinkà votre prompt ouSYSTEM Réponds uniquement en françaisdans le Modelfile. - Le modèle répète en boucle sans s'arrêter (bug #925) : réduisez temperature à 0.3 et ajoutez
"stop": ["\n\n\n"]dans votre requête API. Si le problème persiste, utilisezqwen3:30bqui est plus stable.
Questions fréquentes5
Qwen 3 fonctionne-t-il sans GPU ?
Oui. Qwen3-8B tourne sur CPU avec 8 Go de RAM via Ollama. La génération est plus lente sur CPU (5 à 15 tokens/seconde) que sur GPU (30 à 80 tokens/seconde). Pour le modèle 30B MoE, 16 Go de RAM sont nécessaires sur CPU, ou 12 Go de VRAM sur GPU.
Quelle version de Python est nécessaire pour Qwen 3 ?
Python 3.10 ou supérieur est requis pour la bibliothèque transformers (>=4.51.0). PyTorch 2.6+ est recommandé. Avec Ollama, Python n est pas nécessaire — l API utilise le protocole HTTP sur le port 11434.
Qwen 3 est-il gratuit et open-source ?
Oui. Qwen 3 est sous licence Apache 2.0, qui autorise l utilisation commerciale, la modification et la redistribution sans restriction. Contrairement aux anciens modèles Qwen (Qwen-7B sous licence restrictive limitant l usage commercial), Qwen 3 est entièrement libre. Les 9 tailles de modèles (0.6B à 235B) sont toutes gratuites sur ollama.com/library/qwen3.
Comment debugger si Qwen 3 ne démarre pas ?
Exécutez ollama serve dans un terminal pour voir les logs en temps réel. Les erreurs fréquentes : port 11434 already in use (un autre processus Ollama tourne — tuez-le avec killall ollama), out of memory (modèle trop gros — utilisez qwen3:1.7b), model not found (exécutez ollama pull qwen3:8b d abord).
Qwen 3 vs Llama 3 : lequel choisir ?
Qwen 3-8B est meilleur en multilingue (français, chinois, anglais) et propose le mode thinking. Llama 3.1-8B est meilleur en anglais pur. Pour un usage en français, Qwen 3 est supérieur. Pour le code, Qwen3-30B MoE égale Llama 3.1-70B sur les benchmarks de programmation tout en nécessitant 4 fois moins de RAM.
Guides Technologie & IA
Voir toutConstruire un chatbot local avec Ollama et Python en 30 minutes
Utiliser DeepSeek V4 en 2026 pour améliorer la recherche
Utiliser Claude Opus 4.7 en 2026 pour améliorer la productivité
Comment créer et gérer ses mots de passe de manière sécurisée en 2026
Comment utiliser Ollama en 2026
Poursuivez votre lecture
Multi-catégoriesÉquipe éditoriale GuidePratiquefr
Rédacteurs spécialisés en droit, fiscalité et finances
Rédigé et vérifié par notre équipe de rédacteurs spécialisés. Sources officielles consultées : service-public.fr, legifrance.gouv.fr, impots.gouv.fr, ameli.fr. Dernière vérification : 16 mai 2026.
Sources officielles consultées
Les informations contenues dans ce guide sont fournies à titre indicatif et ne remplacent pas un conseil professionnel personnalisé.