L'annonce : Gemma 4 12B arrive sur les laptops

Le 3 juin 2026, Google a dévoilé une nouvelle version de sa famille de modèles ouverts Gemma 4 : le Gemma 4 12B. Avec 11,95 milliards de paramètres, ce modèle se positionne entre les versions mobiles (E2B, E4B) et les gros modèles (26B MoE, 31B Dense) annoncés en avril 2026. Sa particularité : il fonctionne sur un simple laptop grand public équipé de 16 Go de RAM. Sources : Ars Technica, VentureBeat.

Google avait déjà publié quatre variantes de Gemma 4 en avril 2026, marquant le passage à la licence Apache 2.0, plus ouverte. Mais il manquait un modèle intermédiaire : assez puissant pour des usages sérieux, assez léger pour tourner localement. Gemma 4 12B vient combler ce vide.

12B
Paramètres (11,95 milliards)
16 Go
RAM minimale requise
256K
Tokens de contexte

Architecture révolutionnaire : l'approche encoder-free

L'innovation principale de Gemma 4 12B est son architecture dite « Unified » (sans encodeur). Dans un modèle multimodal classique, chaque type d'entrée (texte, image, audio) possède son propre encodeur dédié, ce qui consomme de la mémoire et ajoute de la latence. Google a remplacé l'encodeur visuel par un module de 35 millions de paramètres utilisant une simple multiplication matricielle, et supprimé totalement l'encodeur audio. Le signal audio brut est directement projeté dans les vecteurs du LLM.

Résultat : une empreinte mémoire réduite de moitié par rapport au Gemma 4 26B MoE, pour des performances qui s'en approchent sur les benchmarks.

Disponibilité : Les poids du modèle sont disponibles sur Hugging Face et Google AI Edge Gallery. Le fichier fait environ 18 Go en téléchargement. Licence Apache 2.0.

Multi-Token Prediction : plus rapide sans compromis

Gemma 4 12B intègre nativement la Multi-Token Prediction (MTP), une technique de décodage spéculatif qui utilise les cycles de calcul inutilisés pour prédire plusieurs tokens futurs simultanément. Résultat : un gain de vitesse pouvant atteindre 3x par rapport à un modèle standard, sans perte de qualité. C'est la première variante Gemma 4 à intégrer MTP directement (les autres modèles ont reçu des versions MTP optionnelles ultérieurement).

Fonctionnalités principales

  • Multimodal natif : texte, audio (30 secondes max) et image (60 secondes de vidéo à 1 image/seconde)
  • Mode raisonnement : mode « thinking » intégré pour les tâches de raisonnement pas-à-pas
  • Function calling : support natif des appels de fonction et des agents autonomes
  • Contexte long : fenêtre de 256 000 tokens
  • Licence ouverte : Apache 2.0, utilisable en production sans restriction
  • Frameworks supportés : vLLM, SGLang, MLX, llama.cpp, LM Studio

Comment installer Gemma 4 12B sur votre machine

L'installation la plus simple passe par LM Studio, une application desktop qui gère le téléchargement et l'exécution des modèles localement :

# Via LM Studio (recommandé pour débutants)
# Ouvrir LM Studio > Rechercher "Gemma 4 12B" > Télécharger > Charger

Pour une utilisation en ligne de commande avec llama.cpp :

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
wget https://huggingface.co/google/gemma-4-12b-GGUF/resolve/main/gemma-4-12b.Q4_K_M.gguf
./main -m gemma-4-12b.Q4_K_M.gguf -p "Explique le fonctionnement de l'IA en une phrase" -n 100

Avec vLLM pour un déploiement serveur :

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-12b

Cas d'usage concrets

Gemma 4 12B est particulièrement adapté à trois scénarios :

  • Confidentialité des données : secteurs régulés (santé, finance, défense) qui doivent traiter des données sensibles sans les envoyer sur le cloud
  • Agents multimodaux autonomes : analyse d'images et d'audio en temps réel, avec fonction calling natif
  • Edge computing : déploiement sur des machines sans connexion cloud, pour la surveillance industrielle, les kiosques, le retail

Analyse rapide

Gemma 4 12B est une réponse directe à la demande croissante de modèles open source exploitables localement. Alors que la plupart des modèles performants nécessitent des GPU spécialisés à plusieurs milliers de dollars, Google démontre qu'un modèle compétitif peut tourner sur du matériel grand public.

Le choix de l'Apache 2.0 est également stratégique. En rendant le modèle librement utilisable, modifiable et redistribuable, Google s'assure une adoption large dans l'écosystème open source, tout en renforçant son influence sur les standards de l'IA locale.

Attention toutefois aux limites : l'audio est limité à 30 secondes et la vidéo à 60 secondes (1 image/s). Pour des traitements longs, les modèles API restent plus adaptés.

À retenir

  • Gemma 4 12B : modèle IA open source qui tourne sur un laptop 16 Go RAM.
  • Architecture encoder-free : pas d'encodeur dédié pour l'audio, module ultra-léger pour la vision.
  • Multimodal : texte, audio (30s), image (60s à 1 ips), fonction calling, 256K tokens de contexte.
  • Licence Apache 2.0 : libre en production, disponible sur Hugging Face.
  • Installation : LM Studio, llama.cpp, vLLM, MLX, SGLang.
  • Limites : pas adapté aux longs médias ni au remplacement de bases de connaissances sans RAG.
← Retour aux news Publié le 4 juin 2026 · Sources : Ars Technica, VentureBeat