Accueil / Modèles LLM / MiniMax M3 vs Kimi K2.7 Code vs Nemotron 3 Ultra : comparaison des meilleurs modèles d'IA sans restriction de taille de 2026

MiniMax M3 vs Kimi K2.7 Code vs Nemotron 3 Ultra : comparaison des meilleurs modèles d'IA sans restriction de taille de 2026

Une expérience de développement immersive avec l'aide de l'IA grâce à MiniMax M3 et Kimi K2.7. Codez sur plusieurs écrans

Trois modèles d'IA massifs et ouverts ont été lancés à deux semaines d'intervalle. L'un provient d'une start-up de Shanghai dont personne, en dehors des cercles spécialisés en IA, n'avait entendu parler il y a un an. Un autre émane du laboratoire d’IA le plus en vue de Pékin. Le dernier provient de l’entreprise qui fabrique les puces sur lesquelles tous les autres font tourner leurs modèles. Chacun d’entre eux fait un pari différent sur ce qui compte le plus actuellement dans les agents IA — et tous les trois méritent que vous y prêtiez une attention particulière.


Table des matières


Pourquoi cette comparaison est-elle importante en ce moment ?

Si vous suivez l'évolution du domaine de l'IA à poids ouverts depuis six mois, vous savez déjà que les choses évoluent plus vite que quiconque ne l'avait prévu. Les mêmes fonctionnalités qui nécessitaient, il y a douze mois, un abonnement à Claude Opus avec un modèle $15/M-token sont désormais disponibles sous forme de poids téléchargeables que vous pouvez exécuter sur vos propres serveurs.

Mais juin 2026, c'était une tout autre histoire. En l'espace de douze jours, trois sorties majeures dans la catégorie poids libre se sont succédé à quelques jours d'intervalle : MiniMax M3 le 1er juin, Nemotron 3 Ultra le 4 juin, et — hier tout juste — Code Kimi K2.7 le 12 juin. Ensemble, ces deux événements constituent sans doute la période de deux semaines la plus marquante de l'histoire de l'IA open source, et chacun d'entre eux repose sur un choix architectural et philosophique différent quant à ce que doit être la prochaine génération d'agents d'IA.

Il ne s'agit pas simplement d'un tour d'horizon des benchmarks. Nous allons examiner comment ces modèles se comportent réellement en production : comment ils s'en sortent sur les frameworks d'agents que les développeurs utilisent réellement — OpenClaw, Hermes Agent et le workflow VIBE Coding, de plus en plus populaire — et dans quels cas chaque modèle vous fera gagner de l'argent ou du temps, par opposition aux cas où il vous décevra discrètement.

Commençons par voir qui sont réellement ces mannequins.

Les modèles d'IA MiniMax M3, Kimi K2.7 Code et Nemotron 3 Ultra représentés sous forme de sphères de données holographiques lumineuses
MiniMax M3, Kimi K2.7 Code et Nemotron 3 Ultra : trois modèles d'IA de poids libre s'affrontent en 2026.

Les prétendants en bref

Avant d'entrer dans les détails, voici un résumé en 30 secondes de ce qu'est chaque modèle et de sa raison d'être :

MiniMax M3 C'est la solution proposée par MiniMax, une entreprise basée à Shanghai, pour devenir le premier modèle à poids ouvert à combiner véritablement trois éléments à la fois : des performances de codage de pointe, une fenêtre contextuelle d'un million de jetons et une multimodalité native — incluant les images, la vidéo et le contrôle d'ordinateurs de bureau. Il est commercialisé sous une licence open-weights avec un abonnement à partir de $20 par mois.

Code Kimi K2.7 Il s'agit de la cinquième version majeure de Moonshot AI (Pékin) en moins d'un an : une mise à jour du code extrêmement ciblée de la version K2.6, déjà impressionnante, qui réduit la consommation de tokens de raisonnement d'environ 30% tout en améliorant considérablement les performances de référence des agents clés. Elle a été publiée hier sur Hugging Face sous une licence MIT modifiée, au prix de 1,95 à 4,00 dollars par million de tokens.

Nemotron 3 Ultra C'est la réponse de NVIDIA à la question suivante : « Et si le fabricant de puces s'était également lancé dans la conception de modèles ? » Avec 550 milliards de paramètres, c’est le modèle open-weight le plus performant jamais sorti d’un laboratoire américain, obtenant un score de 47,7 sur l’Artificial Analysis Intelligence Index — un score qui le place au même niveau que Claude Opus 4.6 et Kimi K2.6. Il a été publié le 4 juin sous la licence OpenMDW-1.1 de la Linux Foundation.

Trois modèles. Trois histoires bien différentes. Tous valent le détour.


MiniMax M3

Qui l'a créé et pourquoi ?

MiniMax n’est pas un nom très connu du grand public en dehors des cercles de l’IA, mais au sein de ces derniers, cette entreprise basée à Shanghai est de plus en plus difficile à ignorer. Elle s’est introduite à la Bourse de Hong Kong en janvier 2026 et travaille depuis près d’un an à la mise au point de M3. Son argumentaire est ambitieux, voire presque agressif : M3 se positionne comme le premier modèle à poids ouvert à combiner le codage de pointe, une fenêtre contextuelle d’un million de tokens et la multimodalité native au sein d’un seul système — et l’entreprise l’a lancé à un prix qui fait paraître onéreux celui des modèles fermés.

L'architecture : MiniMax Sparse Attention

Le principal sujet technique ici est le Attention clairsemée MiniMax (MSA) architecture. Dans les transformateurs classiques, l'attention est quadratique : chaque token est en relation avec tous les autres tokens, ce qui signifie que doubler le contexte multiplie par quatre environ la facture informatique. Avec un million de tokens, le calcul devient exorbitant.

MiniMax a conçu le M3 sur la base de sa nouvelle architecture MSA, qui réduit la charge de calcul par jeton dans un contexte d’un million de jetons à environ un vingtième de celle de la génération précédente, avec un préremplissage plus de 9 fois plus rapide et un décodage plus de 15 fois plus rapide. Il ne s’agit pas là d’une amélioration marginale. C'est la différence entre une fenêtre de contexte d'un million de tokens qui reste une spécification théorique et une fonctionnalité que vous pouvez réellement déployer en production sans que votre facture de GPU ne grimpe en flèche.

Ce modèle s'appuie sur le MiniMax Sparse Attention (MSA), qui remplace l'attention complète par une sélection de blocs KV afin de réduire la charge de calcul par token dans les contextes longs, tout en offrant un préremplissage et un décodage nettement plus rapides, sans compromettre la qualité pour la plupart des tâches.

Il est intéressant de noter que MiniMax avait abandonné l'attention clairsemée dans sa génération M2 avant de la réintroduire spécifiquement pour la M3 — ce qui laisse penser que l'architecture fonctionnait déjà, mais qu'il fallait davantage de données d'entraînement ou un travail d'alignement post-entraînement pour la rendre compétitive. La M3 semble indiquer qu'ils ont trouvé la solution.

En quoi le M3 se distingue-t-il vraiment ?

MiniMax a lancé M3, un modèle qui allie un codage de pointe et des performances de type agentique, avec une fenêtre contextuelle d'un million de tokens et une multimodalité native, le tout pour un coût bien inférieur à celui des principaux modèles propriétaires.

Il convient de s’attarder un instant sur l’aspect multimodal. M3 ne se contente pas d’accepter des images : il traite les images et les vidéos, et peut piloter un ordinateur de bureau en mode natif. Pour les workflows de codage intuitifs où l’on transmet une capture d’écran d’une interface utilisateur en disant “ crée-moi ça ”, c’est véritablement utile d’une manière que ne l’est pas un modèle de codage uniquement textuel.

MiniMax-M3 est le modèle multimodal de pointe de MiniMax, basé sur l'architecture MSA. Il prend en charge une fenêtre de contexte pouvant atteindre 1 million de tokens et accepte des entrées sous forme d'images et de vidéos. Ce modèle est conçu pour la génération de code, les workflows agentiques, l'utilisation d'outils, la compréhension de contextes longs et le raisonnement en plusieurs étapes.

Le benchmark VIBE : la norme établie par MiniMax

Une chose mérite d'être soulignée : MiniMax ne s'est pas contenté de lancer un nouveau modèle, mais a établi une nouvelle référence. Le VIBE (Référentiel visuel et interactif pour l'exécution) Ce cadre est la réponse apportée par MiniMax à ce qu'ils considèrent comme une lacune dans les cadres d'évaluation existants. Contrairement aux benchmarks traditionnels tels que SWE-bench et Terminal-bench, qui se concentrent sur l'exactitude du code statique ou l'exécution de tâches au niveau de la ligne de commande, VIBE évalue automatiquement la logique d'interaction et la présentation visuelle des applications générées dans un environnement d'exécution réel, offrant ainsi une évaluation plus fidèle de l'expérience utilisateur réelle.

C'est certes un critère de référence qui sert ses propres intérêts, mais la critique sous-jacente n'est pas infondée. SWE-bench vous indique si un modèle est capable de résoudre des problèmes sur GitHub ; il ne vous dit pas si un modèle est capable de créer une application web fonctionnelle et visuellement cohérente à partir d'une capture d'écran. M3 obtient de bons résultats dans ce domaine, ce qui est logique compte tenu de son architecture multimodale native.

Tests de performance du MiniMax M3

MiniMax M3 obtient un score de 59,01 TP3T sur SWE-Bench Pro, 66,01 TP3T sur Terminal-Bench 2.1, 34,81 TP3T sur SWE-fficiency et 83,5 sur BrowseComp. Le score BrowseComp est particulièrement impressionnant : avec 83,5, il devance le GPT-5.5 sur les tâches de navigation Web autonome, ce qui correspond exactement au type de capacité que l'on attend d'un agent chargé de travaux de codage nécessitant beaucoup de recherche.

Le MiniMax M3 affiche un score de 59,01 TP3T sur SWE-Bench Pro, devançant ainsi le GPT-5.5 et le Gemini 3.1 Pro et se rapprochant du score de 4,7 obtenu par Claude Opus. Il obtient également un score de 66,01 TP3T sur Terminal Bench 2.1, 34,81 TP3T sur SWE-fficiency, 28,81 TP3T sur KernelBench Hard et 74,21 TP3T sur MCP Atlas.

Une précision qui mérite d'être mentionnée : dans ses propres documents, MiniMax utilise Claude Opus 4.7 comme référence de comparaison, et non la version Opus 4.8 sortie plus récemment. Ce cadre de référence n'est pas inexact, mais les développeurs qui évaluent M3 par rapport au plafond actuel de la référence devraient utiliser les chiffres d'Opus 4.8, qui placent M3 plus loin de la frontière que ne le laisse entendre l'annonce de lancement.

Cela dit, le score de 591 TP3T obtenu sur SWE-Bench Pro par un modèle à poids ouvert avec un contexte d'un million de jetons est remarquable, et les données indépendantes confirment dans l'ensemble que les chiffres communiqués par l'entreprise sont globalement corrects.

Tarifs

Lors de son lancement, MiniMax M3 a été coté sur OpenRouter à $0,60 par million de jetons d'entrée et $2,40 par million de jetons de sortie, avec une remise promotionnelle temporaire de 50% ramenant ces prix à environ $0,30 en entrée et $1,20 en sortie par million de jetons — soit une fraction du coût des modèles fermés de pointe tels que Claude Opus et GPT-5.5.

Pour replacer les choses dans leur contexte : Claude Opus 4.8 coûte $5/$25 par million de jetons. Le M3, à son prix promotionnel, revient à environ 1/20e de ce coût. Même au prix standard, on en est à 1/10e. Les arguments liés au coût sont tout aussi convaincants que ceux liés aux capacités.


Code Kimi K2.7

Qui l'a créé et pourquoi ?

Moonshot AI a été lancé hier — le 12 juin 2026 — avec ce qui constitue la cinquième version majeure en moins d’un an pour cette entreprise basée à Pékin, qui a axé ses modèles sur trois piliers : les capacités d’agent, la gestion de contextes étendus et les entrées multimodales. La famille Kimi K2 est devenue l'une des lignées open-weight les plus suivies de 2026, et K2.7 Code en est l'itération la plus performante à ce jour.

Ce changement de nom est significatif. C'est la première fois que Moonshot intègre explicitement le mot “ Code ” dans le nom d'un modèle. L'entreprise ne prétend pas que K2.7 est un modèle polyvalent : il est optimisé pour l'ingénierie, et non pour les conversations générales, et elle tient à ce que vous le sachiez.

Architecture : la même base d'un trillion de paramètres, mais optimisée davantage

Kimi K2.7 Code est un modèle de type « Mixture-of-Experts » (MOE) comportant 1 000 milliards de paramètres, avec 32 milliards de paramètres actifs par token et 384 experts, doté d'une fenêtre contextuelle de 262 144 tokens, héritée de K2.6, et d'une compression automatique du contexte pour des sessions prolongées à long terme.

L'architecture en elle-même n'a pas radicalement changé par rapport à la version K2.6 : il s'agit toujours du framework MoE de 1 T qui a permis à Kimi K2.6 d'être classé en tête des modèles à poids libre sur l'Artificial Analysis Intelligence Index plus tôt cette année. K2.7 Code représente un perfectionnement ciblé : le même châssis, avec un moteur réajusté spécifiquement pour les workflows de codage agentique.

Kimi K2.7 Code est le modèle agentique axé sur la programmation de Moonshot AI, développé à partir de Kimi K2.6. Il améliore l'exécution des tâches de programmation à long terme dans des contextes réels, le respect des instructions et l'efficacité des tokens, tout en réduisant la consommation de tokens de réflexion d'environ 30% par rapport à Kimi K2.6.

Cette réduction de 30% du nombre de jetons de réflexion n'est pas négligeable. Dans une session d'agent de codage de longue durée où le modèle effectue des centaines de tours, moins de jetons de réflexion signifie un coût moindre et un temps d'exécution plus rapide. Si vous exécutez une opération telle qu'une refactorisation complète du référentiel pendant la nuit, les gains d'efficacité de K2.7 par rapport à K2.6 s'accumulent de manière significative.

Ce que K2.7 améliore réellement

L'annonce de Moonshot s'articule autour de trois chiffres : +21,81 TP3T par rapport à K2.6 sur Kimi Code Bench v2, +11,01 TP3T sur Program Bench et +31,51 TP3T sur MLS Bench Lite, ainsi qu’une réduction d’environ 301 TP3T de l’utilisation des jetons de raisonnement par rapport à K2.6.

Il s'agit de chiffres fournis par le fabricant lui-même, obtenus à l'aide des suites de tests de performance propres à Moonshot. Il convient de noter qu’au 13 juin 2026 — un jour après la sortie —, il n’existe aucun résultat indépendant provenant de tiers pour le K2.7 sur les suites publiques standard — SWE-bench Verified, SWE-bench Pro, Terminal-Bench, LiveCodeBench, GPQA Diamond, AIME ou MMLU-Pro. Cette vérification aura lieu dans les jours à venir. Compte tenu de la trajectoire de K2.6 (qui a produit des benchmarks indépendants compétitifs), les chiffres internes sont probablement exacts dans l’ensemble.

Le résultat le plus marquant parmi les solutions indépendantes à ce jour : K2.7-Code a obtenu un score de 81,1 au test MCP Mark Verified, surpassant les 76,41 TP3T de Claude Opus 4.8. Cette suite teste l'invocation correcte des outils via le Model Context Protocol — vérifications CI, mises à jour de tickets et modifications de fichiers en une seule boucle. Le fait qu'un modèle open-weight surpasse désormais Opus 4.8 en matière d'utilisation des outils MCP constitue, à tous égards, un tournant décisif pour l'IA open source.

L'histoire de la plateforme Kimi Code

Un aspect souvent négligé dans les comparaisons de modèles : K2.7-Code s'exécute au sein de Kimi Code — l'agent de terminal open source de Moonshot — avec des formules d'abonnement à partir de 1 TP4T19 par mois. Moonshot se positionne clairement sur l'ensemble de la pile : modèle, interface en ligne de commande (CLI) et modèle économique d'abonnement. Il s'agit d'une confrontation entre les modèles économiques de Cursor et de Kimi, ce qui est important pour les équipes qui évaluent leur workflow de codage IA de manière globale plutôt que le modèle brut uniquement.

La CLI Kimi Code vaut à elle seule le détour. Elle est compatible avec les shells, prend en charge l'intégration au serveur MCP, et grâce à sa licence open source, vous n'êtes pas lié à l'API de Moonshot si vous souhaitez l'héberger vous-même.

Capacités multimodales

Tout comme M3, K2.7 Code ne se limite pas au texte. Les développeurs peuvent télécharger des captures d’écran, des schémas, des maquettes de produits ou même des vidéos, et demander au modèle de générer du code à partir de ces éléments. Cela en fait un outil utile pour le développement front-end, le débogage de problèmes visuels et la rétro-ingénierie d’interfaces. La capacité de vision est réelle et véritablement utile pour les tâches de codage centrées sur l'interface utilisateur, bien que le champ d'application multimodal de K2.7 soit légèrement plus restreint que celui de M3 (qui inclut l'utilisation d'ordinateurs de bureau).

Tarifs

Le tarif du modèle Kimi K2.7 Code est de $0,95 par million de jetons d'entrée, de $4,00 par million de jetons de sortie et de $0,19 par million de résultats en cache, via l'API Moonshot. Des poids gratuits sont disponibles sur Hugging Face pour l'auto-hébergement.

Pour un modèle à un trillion de paramètres, une entrée de $0,95 est très compétitive. Le prix de sortie ($4,00) est supérieur à celui de M3 en valeur absolue, mais la réduction de 30% des jetons de raisonnement de K2.7 signifie que le coût réel par tâche accomplie peut être inférieur à ce que suggère le nombre brut par jeton. La tarification doit être modélisée en fonction de votre charge de travail spécifique, et non pas uniquement du tarif affiché.


Nemotron 3 Ultra

Qui l'a créé et pourquoi ?

Voici ce que la plupart des articles sur Nemotron 3 Ultra omettent de souligner : il s’agit là d’un modèle de pointe développé par NVIDIA. Ce n'est pas une entreprise de puces électroniques qui s'essaie à l'IA, ni un laboratoire de recherche rattaché à une entreprise d'infrastructure — NVIDIA, dont le chiffre d'affaires dépend des sessions d'entraînement en IA de tous les autres acteurs, a décidé de créer et de commercialiser un modèle de pointe compétitif sous une licence entièrement ouverte. C'est un message fort sur la direction que prend le marché.

Le 4 juin 2026, NVIDIA a lancé Nemotron 3 Ultra, un modèle de raisonnement entièrement ouvert comptant 550 milliards de paramètres, spécialement conçu pour les agents à exécution longue.

Le 4 juin 2026, NVIDIA a discrètement mis en ligne Nemotron 3 Ultra sur Hugging Face, deux jours après que Jensen Huang l'ait annoncé depuis la scène du Computex à Taipei. 550 milliards de paramètres. 55 milliards de paramètres actifs par passage en avant. Plus de 300 tokens par seconde. Le score d'intelligence le plus élevé jamais atteint par un modèle open-weight développé aux États-Unis.

Architecture : le Mamba-Transformer hybride qui change la donne

C'est là que Nemotron 3 Ultra devient intéressant d'un point de vue technique. Alors que M3 utilise l'attention clairsemée pour gérer les contextes longs et que K2.7 reste sur la voie éprouvée des transformateurs MoE, Nemotron Ultra emprunte une voie totalement différente.

NVIDIA a lancé Nemotron 3 Ultra, un modèle « Mixture-of-Experts » de 550 milliards de paramètres, dont 55 milliards de paramètres actifs, optimisé pour l'orchestration de flux de travail d'agents complexes et de longue durée. Les innovations architecturales comprennent des couches hybrides Mamba-Transformer pour une gestion efficace des contextes longs, la quantification NVFP4 pour un déploiement GPU inter-architectures avec un débit jusqu'à 5 fois supérieur, LatentMoE pour le routage expert, et la prédiction multi-token pour une vitesse de génération améliorée dans les tâches à plusieurs tours.

L'approche hybride Mamba-Transformer est remarquable. Les couches Mamba gèrent les dépendances séquentielles plus efficacement que l'attention standard dans les contextes longs : elles évoluent de manière linéaire, et non quadratique, avec la longueur de la séquence. En combinant cela avec l'attention Transformer pour les tâches qui en tirent parti, et en intégrant le tout dans une architecture MoE, NVIDIA parvient à une combinaison inhabituelle : une intelligence élevée, un débit élevé et un coût par token relativement faible.

La quantification NVFP4 constitue un autre élément distinctif. Sur les GPU Blackwell (successeurs du H100), elle s'exécute avec des calculs FP4 natifs. Sur Hopper (H100), elle revient à W4A16. Dans tous les cas, Nemotron 3 Ultra atteint un débit d'inférence 5,9 fois supérieur à celui de GLM-5.1, est 4,8 fois plus rapide que Kimi K2.6 et 1,6 fois plus rapide que Qwen-3.5 avec des paramètres de 8 000 tokens en entrée et 64 000 en sortie, tout en offrant une précision équivalente sur un large éventail de benchmarks d'agentique et de raisonnement.

Relisez bien cela : 4,8 fois plus rapide que Kimi K2.6 avec une précision comparable. Pour les équipes qui utilisent des agents de production, cet écart de débit se répercute directement sur le coût par tâche.

Indices de référence et indice de performance

Nemotron 3 Ultra obtient un score de 47,7 à l'indice d'analyse par intelligence artificielle, devançant largement les modèles américains à poids aléatoires les plus performants qui le suivent : Gemma 4 31B (39,2), Nemotron 3 Super (36,0) et gpt-oss-120b (33,3).

La mise en garde honnête figure justement dans ce même paragraphe : il reste en retrait par rapport à la pointe de la technologie chinoise en matière de poids libre (Kimi K2.6 à 53,9). C'est une première aux États-Unis, et c'est une bonne nouvelle — mais le Nemotron Ultra n'est pas le meilleur modèle à poids libre au monde à l'heure actuelle. C'est le meilleur modèle américain, et de loin.

Pour les tâches agentiques, Nemotron 3 Ultra obtient un score de 90,0 sur PinchBench et de 56,0 sur ProfBench Search. L'équipe NVIDIA a réservé ces deux tests comme critères de généralisation de validation, qui n'ont été évalués qu'une seule fois sur le modèle final. Il obtient un score de 71,9 sur SWE-Bench Verified et de 56,4 sur Terminal Bench 2.1. En matière de raisonnement, il obtient un score de 570,0 sur IOI 2025, que NVIDIA classe parmi les trois meilleurs résultats de programmation compétitive de niveau humain.

Le score de 71,91 TP3T obtenu par SWE-Bench Verified est particulièrement compétitif. Il se classe derrière Claude Fable 5 et GPT-5.5 parmi les modèles fermés de pointe, mais devance la plupart des alternatives à poids ouvert — et, surtout, il est mesuré de manière cohérente sur plusieurs cadres d'agents.

Sur AA-Omniscience, il affiche le score le plus élevé de l'ensemble en matière de non-hallucination, avec 78,7, ce qui indique une moindre tendance à répondre en cas d'incertitude. Le modèle conserve ses performances à grande échelle : il obtient un score de 94,7 sur RULER avec 1 million de tokens.

Ce phénomène d’« hallucination » mérite d’être souligné. Dans les flux de travail des agents de production, un modèle capable de reconnaître ses limites s’avère souvent plus utile qu’un modèle qui obtient des scores légèrement supérieurs lors des tests de performance, mais qui se fourvoie avec assurance dans les cas limites.

L'histoire des données de formation ouvertes

Au total, sur l'ensemble des trois lancements de Nemotron 3, NVIDIA a publié 50 millions d'échantillons de réglage fin supervisé, 2 millions de tâches d'apprentissage par renforcement et 55 environnements d'apprentissage par renforcement. Un tel niveau d'ouverture est inhabituel pour une famille de modèles de pointe, et c'est ce qui a suscité la réaction la plus vive de la part de la communauté des chercheurs en IA.

Si vous souhaitez affiner ou étendre Nemotron Ultra, vous ne vous lancez pas à l'aveuglette. Les recettes d'entraînement, les données et les environnements d'évaluation sont tous accessibles au public. Pour les équipes d'entreprise qui ont besoin de performances spécifiques à leur domaine et qui ont les moyens de procéder à un réglage fin, il s'agit là d'un avantage significatif que ni M3 ni K2.7 Code ne peuvent actuellement égaler.

Tarifs

DeepInfra dispose déjà d'un point de terminaison en préversion, avec des tarifs fixés à 1 TP4T0,37/M en entrée et 1 TP4T1,08/M en sortie — ce qui est supérieur à la médiane pour cette catégorie de taille. OpenRouter l'a référencé et rendu accessible. L'intégration en entreprise est disponible via les microservices NVIDIA NIM sur build.nvidia.com.

Nemotron 3 Ultra fonctionne à un coût de 1 TP4T0,50 par million de jetons d'entrée et de 1 TP4T2,50 par million de jetons de sortie chez certains fournisseurs, offrant un excellent rapport qualité-prix pour un modèle de ce niveau d'intelligence.


Comparatifs directs

Voici un comparatif des principales caractéristiques techniques des trois modèles, ainsi que des explications sur ce que mesure réellement chaque critère :

SWE-Bench Pro (Résolution concrète des tickets GitHub)

SWE-Bench Pro évalue la capacité d’un modèle à résoudre des tickets GitHub réels créés après la date butoir de son apprentissage, ce qui réduit le risque de contamination des données par rapport aux versions précédentes de SWE-Bench. C’est ce qui se rapproche le plus de la question “ ce modèle est-il capable de corriger de véritables bogues dans de véritables bases de code ? ” que la communauté des benchmarks ait produite à ce jour.

  • MiniMax M3 : 59,01 TP3T (chiffres communiqués par l'entreprise)
  • Nemotron 3 Ultra : ~56-71,91 TP3T (résultats validés par SWE-Bench) ; les résultats SWE-Bench Pro sont en attente d'une confirmation indépendante
  • Kimi K2.7 Code : K2.6 a obtenu un score de 58,61 TP3T ; les résultats internes de K2.7 laissent présager un score similaire ou supérieur — score indépendant en attente

Terminal-Bench 2.1 (Tâches CLI en plusieurs étapes)

Terminal-Bench teste ce que les agents font réellement en production : des tâches shell en plusieurs étapes dans des environnements de terminal actifs. Cela se rapproche davantage de la question “ est-ce qu’il peut exécuter un pipeline d’intégration continue ” que de “ est-ce qu’il peut proposer la saisie semi-automatique de code ”.”

  • MiniMax M3 : 66.0%
  • Nemotron 3 Ultra : 56.4%
  • Kimi K2.7 Code : Le K2.6 a atteint 67,21 TP3T ; le K2.7 devrait faire mieux

Sur Terminal-Bench, M3 et K2.7 se situent dans une catégorie similaire, tous deux devant Nemotron Ultra. Cela n'a rien d'étonnant : M3 et la famille Kimi ont été spécialement optimisés pour les tâches de codage à long terme, tandis que les priorités de conception de Nemotron Ultra sont plus générales.

Utilisation de l'outil MCP (Model Context Protocol)

L'utilisation de l'outil MCP s'impose de plus en plus comme le critère de référence le plus important pour les déploiements réels d'agents. Une invocation correcte de l'outil ne se résume pas à des scores de benchmark : il s'agit de savoir si votre agent exécute réellement les bonnes actions sans « halluciner » des noms de fonctions ou des paramètres.

  • Kimi K2.7 Code : 81,1 sur MCP Mark Verified (battant le score de 76,4 de Claude Opus 4.8)
  • MiniMax M3 : 74,2 selon l'indice MCP Atlas (chiffres communiqués par l'entreprise)
  • Nemotron 3 Ultra : Excellents résultats au test BFCL V4 (appel de fonctions) ; les chiffres exacts du test MCP Mark n'ont pas encore été publiés

Le K2.7 remporte haut la main cette catégorie. L'ajustement agentique de Moonshot a spécifiquement ciblé les schémas d'appel d'outils, et cela se voit.

Indice d'analyse par intelligence artificielle (score composite)

Cet indice composite, calculé à partir de 10 évaluations, porte sur le raisonnement, les connaissances, les mathématiques et le codage ; il s'agit en substance d'une moyenne pondérée de l'intelligence générale d'un modèle.

  • Gamme Kimi K2.6 / K2.7 : 53-54 (données K2.7 en attente)
  • Nemotron 3 Ultra : 47.7
  • MiniMax M3 : Pas encore noté (BenchLM classe M3 à la 76e place sur 100 dans le classement provisoire, avec #29 sur 122)

Vitesse (jetons par seconde)

C'est là que l'architecture de Nemotron Ultra se distingue :

  • Nemotron 3 Ultra : Plus de 300 tokens par seconde sur GB200, 5,9 fois plus rapide que GLM-5.1, 4,8 fois plus rapide que Kimi K2.6
  • MiniMax M3 : Environ 100 tokens par seconde pour un contexte d'un million de tokens
  • Kimi K2.7 Code : Comparable au K2.6 (gains de débit liés à l'efficacité des tokens plutôt qu'à la vitesse brute)

Pour les déploiements de production à haut débit où vous exécutez de nombreux agents en parallèle, l'avantage de Nemotron Ultra en termes de débit est considérable.


Performances des agents en conditions réelles : Hermes, OpenClaw et WildClawBench

Les tests de performance sont une chose. La manière dont ces modèles se comportent réellement dans les frameworks d'agents que les développeurs déploient aujourd'hui en est une autre.

OpenClaw : le framework d'agents qui s'impose

Si vous n'avez pas encore entendu parler d'OpenClaw, ça ne va pas tarder. En seulement deux mois, OpenClaw a récolté 247 000 étoiles sur GitHub, devenant ainsi une plateforme d'agents IA adoptée avec enthousiasme par les entreprises de la Silicon Valley et de Chine. Elle fonctionne en exécution locale, est indépendante du modèle et s'intègre aux applications de messagerie — trois caractéristiques qui la distinguent nettement des assistants IA basés sur le SaaS.

OpenClaw est conçu pour être indépendant du modèle utilisé, ce qui signifie que la qualité de votre expérience dépend presque entièrement du modèle de langage de grande envergure (LLM) que vous intégrez au back-end. C'est là que le choix du modèle revêt une importance cruciale.

Le Test de performance PinchBench OpenClaw comprend 23 tâches portant sur l'exécution de code, la création de contenu, la recherche et les outils système. Le test comprend 23 tâches couvrant l'exécution de code, la création de contenu et les outils système — il est open source et reproductible, et utilise les données issues des tests de l'agent OpenClaw de PinchBench.

À propos de l'évaluation OpenClaw de PinchBench :

  • Nemotron 3 Ultra : 90% sur PinchBench Agent Productivity (à égalité avec Kimi K2.6 — le meilleur modèle open source chinois en matière d'exécution de tâches selon ce benchmark)
  • Kimi K2.7 Code : Devrait rivaliser avec les excellents résultats du K2.6, voire les dépasser
  • MiniMax M3 : Des scores d'agentique globalement élevés ; il convient de noter l'avantage en termes de coût (5 fois moins cher) par rapport au Kimi K2.6 lors des tests pratiques réalisés par Composio

Une comparaison en conditions réelles réalisée par Composio entre M3 et K2.6 (le prédécesseur de K2.7) a révélé un élément intéressant : M3 a coûté $0,81 pour 25 tâches Composio, tandis que Kimi a coûté $4,08 — soit environ cinq fois plus. Le M3 présentait un avantage plus net pour le codage de terminaux complexes ; l'orchestration des outils SaaS courants était quant à elle pratiquement à égalité.

Cet écart de coût ne se résume pas à une simple question économique : il signifie que vous pouvez effectuer cinq fois plus d'itérations d'agents pour un budget identique, ce qui est crucial pour les tâches de programmation nécessitant beaucoup d'exploration, où la vitesse d'itération constitue le goulot d'étranglement.

Hermes Agent : le framework qui ne fait pas de favoritisme

WildClawBench, publié en mai 2026 par InternLM, est l'une des évaluations d'agents autonomes indépendantes les plus rigoureuses actuellement disponibles. Ce benchmark teste ce qui compte vraiment : un agent IA est-il capable d'effectuer un travail réel, de bout en bout, sans assistance ? Il exécute la même suite de 60 tâches sous quatre harnais d'agents différents — OpenClaw, Claude Code, Codex CLI et Hermes Agent —, séparant ainsi les capacités du modèle de l'infrastructure du harnais.

Le harnais Hermes est particulièrement intéressant, car il a été conçu pour tester les modèles indépendamment de toute infrastructure d'agents propre à un fournisseur. Il fournit ainsi une indication claire de la qualité du modèle sous-jacent.

Nemotron 3 Ultra atteint des scores certifiés SWEBench compris entre 65% et 70,4% sur les frameworks Pi, OpenHands, Hermes, OpenCode et Mini SWE Agent — des performances constantes quel que soit le framework utilisé.

Cette cohérence entre les différents harnais constitue un indicateur de qualité significatif. De nombreux modèles qui obtiennent de bons résultats dans leur propre CLI voient leurs performances baisser considérablement lorsqu’on les intègre à un autre cadre d’agents. L’architecture de Nemotron Ultra semble résister aux changements de cadre — probablement parce que NVIDIA a délibérément effectué l’entraînement sur plusieurs harnais d’agents par type de tâche, plutôt que de l’optimiser pour un seul.

En ce qui concerne les versions M3 et K2.7, les résultats spécifiques à WildClawBench continuent d'affluer au sein de la communauté, mais les performances historiques de la famille K2 dans les évaluations d'agents et les améliorations apportées au MCP de la version K2.7 laissent présager d'excellents résultats avec le framework Hermes.

Conclusion du cadre

Si vous développez sur OpenClaw et que le coût est un facteur déterminant : optez pour le modèle M3. Si vous travaillez sur des pipelines intensifs en MCP : K2.7 Code est la solution de choix. Si vous avez besoin d'une cohérence indépendante du framework à la fois pour Hermes, OpenClaw et d'autres plateformes : la cohérence indépendante du harnais de Nemotron Ultra est le choix qui s'impose.


Vibe Coding : quel modèle permet réellement de créer des applications de qualité ?

“Le ” Vibe coding » est devenu le terme générique désignant un style de développement assisté par l'IA dans lequel on construit des fonctionnalités complètes ou de petites applications de manière itérative à partir de consignes en langage naturel, souvent à partir de captures d'écran, de maquettes ou de descriptions sommaires. Il s’agit moins de générer du code précis que de la capacité du modèle à conserver une vision cohérente du produit tout au long de nombreux itérations, tout en produisant un résultat fonctionnel et visuellement cohérent.

Chacun de ces trois modèles aborde le codage des ambiances d'une manière différente, et ces différences ont leur importance.

MiniMax M3 : la base multimodale la plus performante

M3 a été spécialement conçu pour la dimension visuelle du « vibe coding ». MiniMax a lancé le VIBE (Visual & Interactive Benchmark for Execution) dans le but précis de mesurer la capacité d'un modèle à créer, de A à Z, des applications complètes et exécutables, en évaluant automatiquement la logique d'interaction et la présentation visuelle des applications générées dans un environnement d'exécution réel.

Le fait que M3 ait lancé ce benchmark est révélateur. MiniMax estime clairement que les benchmarks de codage classiques — qui vérifient si le code passe les tests unitaires — passent à côté de la question qui importe vraiment pour le « vibe coding » : l'application fonctionne-t-elle ? et ça a l'air correct, non ?

Concrètement, grâce à la prise en charge native des vidéos et des images par M3, vous pouvez coller une capture d’écran de Figma ou une session utilisateur enregistrée et demander au modèle de s’en inspirer directement. Il s’agit là d’un flux de travail radicalement différent de celui qui consiste à décrire ce que vous voulez avec des mots. Pour le développement axé sur le front-end — composants React, interfaces utilisateur d’applications web, mises en page ’ mobile-first ’ — la capacité d’entrée visuelle de M3 transforme le cycle de manière que les modèles purement textuels ne peuvent égaler.

La fenêtre de contexte de 1 million de tokens revêt également une importance particulière pour le « vibe coding » : elle permet d'intégrer l'intégralité d'une base de code de taille moyenne dans le contexte, ce qui signifie que le modèle peut refactoriser à travers les fichiers sans perdre la cohérence de ce qu'il est en train de construire. C'est l'un des véritables risques d'échec du vibe coding avec des modèles à contexte plus restreint : le code commence à diverger de lui-même au fil des itérations, car le modèle perd de vue les décisions architecturales antérieures.

Kimi K2.7 Code : le meilleur codeur de vibrateurs avec outils intégrés

Les développeurs peuvent télécharger des captures d'écran, des schémas, des maquettes de produits ou même des vidéos, puis demander à Kimi K2.7 de générer du code à partir de ces éléments — une fonctionnalité utile pour le développement front-end, le débogage des problèmes visuels et la rétro-ingénierie des interfaces.

L'atout de K2.7 en matière de développement interactif réside dans l'intégration de l'outil MCP. Lorsque vous effectuez une compilation via Kimi Code CLI, le modèle peut effectuer une boucle sur un terminal réel : exécuter l'application, vérifier la sortie, lire les journaux d'erreurs et itérer — le tout au sein d'une même session. C'est cette boucle de bout en bout, avec un retour d'information sur l'exécution réelle, qui distingue la ’ génération de code “ de la ” compilation effective “.”

La réduction du nombre de tokens (30%) revêt également une importance particulière pour le « vibe coding », car les sessions de « vibe coding » ont tendance à être longues et à prendre la forme d'une conversation. Un modèle qui utilise moins de tokens par étape de raisonnement permet de mener des sessions plus longues à moindre coût, ce qui correspond parfaitement au fonctionnement réel du développement itératif d'applications.

Nemotron 3 Ultra : puissant mais moins spécialisé

Nemotron Ultra est un outil polyvalent et performant qui gère bien les entrées multimodales, mais ses priorités en matière de conception ont été l'optimisation de la cohérence des agents et de la profondeur de raisonnement plutôt que l'interface visuelle du « vibe coding ». Pour les workflows de « vibe coding » purs — importation d'une capture d'écran, exportation d'une application fonctionnelle —, M3 est le choix le plus naturel.

C'est dans les phases de développement axées sur l'architecture et le raisonnement que Nemotron Ultra excelle : conception des composants du système, débogage de problèmes complexes liés à la gestion des états ou résolution d'algorithmes délicats. Il s'agit moins de “ créer cette interface utilisateur à partir de cette capture d'écran ” que de “ m'aider à concevoir l'architecture et à analyser les cas limites ”.”

Verdict de Vibe Coding

En matière de programmation intuitive, le classement est le suivant : M3 (meilleure intégration visuelle, contexte le plus large, le moins cher) → K2.7 Code (meilleure boucle de rétroaction en temps réel, utilisation optimale des outils) → Nemotron Ultra (excellent assistant de raisonnement, moins spécialisé dans la création visuelle d'applications).

Si vous pratiquez principalement le « vibe coding » dans un environnement à forte composante visuelle (React, Vue, mobile), M3 est la solution qu’il vous faut. Si vous développez des applications ou des systèmes à forte composante backend où le cycle d’itération implique l’exécution et le test du code proprement dit, l’intégration MCP de K2.7 Code vous offre un avantage décisif.


Tarification et analyse du rapport coût-performance

Examinons les chiffres réels, car les chiffres de référence avancés n'ont de sens que par rapport à ce que vous payez réellement.

ModèleDonnées d'entrée (pour 1 million de jetons)Rendement (pour 1 million de jetons)ContexteLicence
MiniMax M3 (offre promotionnelle)$0.30$1.201 millionPoids libres
MiniMax M3 (version standard)$0.60$2.401 millionPoids libres
Code Kimi K2.7$0.95$4.00256 KoMIT modifié
Nemotron 3 Ultra (DeepInfra)$0.37$1.081 millionOpenMDW 1.1
Claude Opus 4.8$5.00$25.00Exclusif
GPT-5.5~$10.00+~$30.00+Exclusif

Le calcul des coûts se nuance lorsque l'on tient compte de l'efficacité. La réduction de 30% sur K2.7 signifie qu'une session qui utilise 1 million de jetons de sortie sur K2.6 n'en utilise qu'environ 700 000 sur K2.7. Avec un coût de 1 TP4T4,00 par million de jetons de sortie, cela correspond à 1 TP4T4,00 contre 1 TP4T2,80 — il ne s'agit pas seulement d'une différence de tarif, mais d'un gain d'efficacité. Sur de longues exécutions d'agents, cela se cumule de manière significative.

Le Nemotron Ultra à $0,37/$1,08 de DeepInfra est remarquablement abordable pour un modèle 550B avec un indice d'intelligence de 47,7 — ce qui s'explique en partie par son avantage en termes de débit (une vitesse 5,9 fois supérieure signifie un coût par tâche accomplie plus faible, même si les tarifs par jeton sont identiques).

Le M3, proposé à un tarif promotionnel, est le moins cher en valeur absolue, même si le tarif standard de $0,60/$2,40 reste très avantageux pour une fenêtre contextuelle d'un million de jetons avec un codage de pointe.

Dans la plupart des déploiements en production, le véritable calcul de coût ne se fait pas en termes de jetons par dollar, mais en termes de tâches menées à bien par dollar. Créez une petite suite de tests représentative de vos tâches réelles et évaluez le coût de chaque modèle par rapport à celle-ci. Les tarifs annoncés ne sont qu'un point de départ, pas une réponse toute faite.


À qui s'adresse chaque modèle ?

Ces trois modèles ne sont pas vraiment en concurrence pour le même cas d'utilisation. Voici une analyse concrète :

Optez pour le MiniMax M3 si :

  • Vous avez besoin d'une fenêtre de contexte plus grande pour les bases de code volumineuses, les documents longs ou les projets comportant plusieurs fichiers
  • Votre processus de travail est axé sur le visuel (captures d'écran → code, maquettes → mise en œuvre)
  • Le coût est votre principale contrainte et vous devez effectuer de nombreuses itérations
  • Vous développez des agents de navigation ou des pipelines de recherche autonomes qui tirent parti des atouts de BrowseComp
  • Vous recherchez un modèle unique capable de traiter du texte, des images et des vidéos sans avoir à changer de modèle

Optez pour le Kimi K2.7 Code si :

  • Vous développez des pipelines intégrés à MCP et avez besoin d'une fiabilité optimale pour l'exécution des outils
  • Vous effectuez un codage agentique à long terme à l'aide de flux de travail terminaux en plusieurs étapes
  • Vous effectuez le déploiement via Kimi Code CLI et souhaitez bénéficier d'une intégration optimale entre le modèle et le harnais
  • Vous recherchez la flexibilité d'un modèle sans restriction de poids avec une licence MIT modifiée
  • L'efficacité des tokens lors de longues sessions est importante (la réduction de 30% s'accumule au fil des longues séries d'agents)

Optez pour le Nemotron 3 Ultra si :

  • Votre entreprise est basée aux États-Unis et, pour des raisons liées à la sécurité des données géopolitiques, les modèles d'origine chinoise sont exclus
  • Vous avez besoin d'un ajustement de modèle avec un accès complet aux données d'entraînement, aux échantillons SFT et aux environnements d'apprentissage par renforcement
  • La cohérence du cadre est essentielle : vous effectuez des déploiements simultanés sur Hermes, OpenClaw et d'autres environnements de test
  • Le débit est essentiel pour les déploiements d'agents simultanés à grande échelle
  • Vous effectuez un travail qui fait largement appel au raisonnement : programmation compétitive, architectures complexes, exercices de raisonnement de niveau universitaire
  • Tu veux le meilleur modèle américain en catégorie libre, un point c'est tout

Le cas limite honnête : Si vous travaillez dans une petite start-up ou en tant que développeur indépendant, avec des besoins flexibles en matière de données et si le coût est votre principale contrainte, le M3 à son prix promotionnel est vraiment difficile à battre. Si vous travaillez dans une entreprise américaine soumise à une réglementation, Nemotron Ultra est le choix par défaut le plus sûr, et son prix est suffisamment compétitif pour que vous ne fassiez pas de gros sacrifices en évitant les modèles d'origine chinoise.


Le sujet tabou : la confidentialité des données

Cette comparaison serait incomplète si l'on ne abordait pas un sujet qui revêt une importance croissante pour les déploiements en entreprise.

Le siège social de MiniMax est situé à Shanghai. En vertu de la loi nationale chinoise sur le renseignement promulguée en 2017, toute entreprise chinoise — y compris MiniMax — est légalement tenue de “ soutenir, aider et coopérer avec les activités de renseignement de l'État ”. Cette obligation s'applique de manière permanente et ne prévoit aucun moyen légal permettant à l'entreprise de refuser de s'y conformer lorsqu'une demande émane du gouvernement.

Une enquête du Congrès américain annoncée le 29 avril 2026 a cité MiniMax aux côtés d'autres laboratoires chinois spécialisés dans l'IA ; Anthropic a déposé en février 2026 des accusations de distillation à l'échelle industrielle contre Claude ; et une action en justice pour violation du droit d'auteur intentée par Disney, Universal et Warner Bros. Discovery concernant le produit Hailuo a été autorisée à se poursuivre le 26 mai 2026.

Les mêmes considérations s'appliquent au modèle Kimi K2.7 Code de Moonshot AI (également basé à Pékin). La valeur technique de ces modèles est indéniable, mais les équipes chargées des achats dans les entreprises des secteurs réglementés, les sociétés liées à la défense ou toute organisation traitant des informations confidentielles doivent tenir compte de ces éléments dans leur prise de décision.

Le fait que ces deux modèles soient open-source offre une solution potentielle : si vous les hébergez vous-même sur votre propre infrastructure et que vous n'envoyez jamais de requêtes aux API de Moonshot ou de MiniMax, le flux de données vers l'infrastructure chinoise peut être interrompu. La question de savoir si cela suffit pour répondre à vos exigences de conformité relève du droit et de l'évaluation des risques propres à votre organisation.

Nemotron Ultra est un modèle proposé par NVIDIA, une entreprise américaine, sous la licence OpenMDW-1.1 de la Linux Foundation. Pour les entreprises américaines soumises à des exigences en matière de souveraineté des données, il s'agit là d'un facteur de différenciation important que les tableaux de performance ne reflètent pas.


Verdict final

Deux semaines, trois lancements marquants. L'évolution de l'IA à poids ouvert en juin 2026 ne se résume pas à une amélioration progressive : il s'agit d'un véritable tournant.

MiniMax M3 C'est le plus polyvalent des trois et celui qui offre le meilleur rapport qualité-prix en termes de coût absolu. Son contexte de 1 million de tokens et sa multimodalité native lui confèrent un profil unique pour les travaux de développement axés sur le visuel. Les bémols concernent les benchmarks non vérifiés et les questions de confidentialité des données en cas d'utilisation en entreprise.

Code Kimi K2.7 C'est tout simplement le meilleur modèle de codage agentique dans l'espace des poids ouverts à l'heure actuelle, point final. Battre Claude Opus 4.8 sur l'utilisation de l'outil MCP en tant que modèle à poids ouverts n'est pas une victoire insignifiante dans les benchmarks : c'est la différence entre une “ démonstration impressionnante en laboratoire ” et “ une réelle supériorité dans ce que font les agents en production ”. L'amélioration de l'efficacité des tokens du 30% par rapport au K2.6 rend son exécution à grande échelle nettement moins coûteuse. La mise en garde : il s'agit d'un spécialiste du codage uniquement, les benchmarks indépendants sont encore à venir, et les questions relatives à la provenance des données de Moonshot AI sont les mêmes que celles de MiniMax.

Nemotron 3 Ultra C'est le modèle à déployer lorsque vous avez besoin d'un modèle open-weight de pointe, fiable pour les entreprises, pouvant être affiné en toute transparence, fonctionnant plus rapidement que n'importe quel autre modèle de même niveau d'intelligence, et bénéficiant d'une crédibilité en matière de chaîne d'approvisionnement qui rassure les équipes juridiques et d'approvisionnement. Son avantage de débit 4,8 fois supérieur à celui de Kimi K2.6 est véritablement révolutionnaire pour les charges de travail des agents de production, et sa cohérence indépendante du harnais dans les benchmarks des agents est un indicateur de qualité que les tableaux de benchmark seuls ne parviennent pas à rendre pleinement compte.

La conclusion générale à tirer de ces deux semaines est la suivante : la frontière de l'IA open-source est passée de “ presque aussi performante que les modèles propriétaires ” à “ plus performante que les modèles propriétaires sur certains aspects essentiels ”. Les résultats obtenus avec l'outil MCP sur K2.7 en sont la preuve la plus évidente à ce jour. Nous n'attendons plus que l'open source rattrape son retard : sur certains aspects, il est déjà en tête.

Avez-vous déjà testé l'un de ces modèles en production ? Partagez votre expérience dans les commentaires, surtout si vous avez mené des sessions d'agents en face à face sur OpenClaw ou Hermes. À l'heure actuelle, les données issues de la pratique ont bien plus de valeur que n'importe quel benchmark.

Pour découvrir d'autres analyses approfondies sur les modèles d'IA, suivez tech.grahammiranda.com.

Étiquetté :

Répondre

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

fr_FRFrançais