Tre modelli di grandi dimensioni e senza limiti di peso sono stati lanciati a distanza di due settimane l'uno dall'altro. Uno proviene da una startup di Shanghai che un anno fa nessuno conosceva al di fuori degli ambienti dell'IA. Uno dal laboratorio di IA più seguito di Pechino. Uno dall'azienda che produce i chip su cui tutti gli altri eseguono i propri modelli. Ognuno di essi sta facendo una scommessa diversa su ciò che conta di più negli agenti di IA in questo momento — e tutti e tre meritano la vostra seria attenzione.
Indice dei contenuti
- Perché questo confronto è importante proprio in questo momento
- I candidati in breve
- MiniMax M3
- Codice Kimi K2.7
- Nemotron 3 Ultra
- Confronto diretto
- Prestazioni degli agenti nel mondo reale: Hermes, OpenClaw e WildClawBench
- Vibe Coding: quale modello permette davvero di sviluppare app di qualità?
- Prezzi e analisi del rapporto costo-prestazioni
- Chi dovrebbe scegliere quale modello?
- L'elefante nella stanza: la protezione dei dati
- Verdetto finale
Perché questo confronto è importante proprio in questo momento
Se avete seguito l'evoluzione del settore dell'intelligenza artificiale a pesi aperti negli ultimi sei mesi, saprete già che gli sviluppi stanno procedendo più rapidamente di quanto chiunque potesse prevedere. Le stesse funzionalità che dodici mesi fa richiedevano un abbonamento a Claude Opus con $15/M token sono ora disponibili sotto forma di pesi scaricabili che potete eseguire sui vostri server.
Ma il giugno 2026 è stata tutta un'altra storia. Nel giro di dodici giorni, tre importanti uscite per console open-weight sono arrivate a pochi giorni di distanza l'una dall'altra: MiniMax M3 il 1° giugno, Nemotron 3 Ultra il 4 giugno e — letteralmente ieri — Codice Kimi K2.7 il 12 giugno. Nel loro insieme, rappresentano probabilmente il periodo di due settimane più significativo nella storia dell'IA open source, e ciascuna di esse punta su una visione architettonica e filosofica diversa riguardo a ciò che la prossima generazione di agenti di IA dovrà essere in grado di fare.
Non si tratta semplicemente di una rassegna di benchmark. Vedremo come questi modelli si comportano effettivamente in produzione: come si comportano sui framework di agenti che gli sviluppatori utilizzano realmente — OpenClaw, Hermes Agent e il flusso di lavoro VIBE Coding, sempre più popolare — e in quali ambiti ciascun modello vi farà risparmiare tempo o denaro rispetto a dove vi deluderà silenziosamente.
Cominciamo col vedere chi sono effettivamente questi modelli.

I candidati in breve
Prima di addentrarci nei dettagli, ecco una breve sintesi di cosa sia ciascun modello e perché esista:
MiniMax M3 È la scommessa di MiniMax, con sede a Shanghai, per diventare il primo modello open-weight in grado di combinare realmente tre caratteristiche contemporaneamente: prestazioni di codifica all’avanguardia, una finestra di contesto da un milione di token e multimodalità nativa — che include immagini, video e controllo del computer desktop. È distribuito con una licenza open-weight e un prezzo di abbonamento a partire da $20 al mese.
Codice Kimi K2.7 Si tratta della quinta versione importante rilasciata da Moonshot AI (Pechino) in meno di un anno: un aggiornamento del codice mirato alla versione K2.6, già di per sé impressionante, che riduce l'utilizzo di token di ragionamento di circa 30%, migliorando al contempo in modo significativo i benchmark chiave degli agenti. È stato pubblicato ieri su Hugging Face con una licenza MIT modificata, al prezzo di $0,95/$4,00 per milione di token.
Nemotron 3 Ultra è la risposta di NVIDIA alla domanda: e se anche il produttore di chip realizzasse un modello? Con 550 miliardi di parametri, è il modello open-weight più potente mai uscito da un laboratorio statunitense, con un punteggio di 47,7 sull'Artificial Analysis Intelligence Index — un punteggio che lo colloca allo stesso livello di Claude Opus 4.6 e Kimi K2.6. È stato rilasciato il 4 giugno sotto la licenza OpenMDW-1.1 della Linux Foundation.
Tre modelli. Tre storie alle spalle molto diverse. Tutti meritano di essere provati.
MiniMax M3
Chi l'ha realizzato e perché
MiniMax non è un nome molto conosciuto al di fuori degli ambienti dell’intelligenza artificiale, ma all’interno di essi l’azienda con sede a Shanghai è diventata sempre più difficile da ignorare. Si è quotata alla Borsa di Hong Kong nel gennaio 2026 e ha lavorato al progetto M3 per gran parte dell’anno. La presentazione è ambiziosa al punto da sembrare quasi aggressiva: M3 si posiziona come il primo modello a peso aperto a combinare la codifica di frontiera, una finestra di contesto da un milione di token e la multimodalità nativa in un unico sistema — e l'hanno lanciato a un prezzo che fa sembrare costosi i modelli chiusi.
L'architettura: MiniMax Sparse Attention
L'aspetto tecnico più rilevante in questo caso è il MiniMax Sparse Attention (MSA) Architettura. L'attenzione standard dei trasformatori è quadratica: ogni token presta attenzione a tutti gli altri token, il che significa che raddoppiare il contesto comporta un aumento di circa quattro volte dei costi di elaborazione. Con un milione di token, i conti diventano davvero salati.
MiniMax ha realizzato M3 sulla base del suo nuovo design MSA, che riduce il carico di calcolo per token a 1 milione di contesti a circa un ventesimo rispetto alla generazione precedente, con un prefill oltre 9 volte più veloce e una decodifica oltre 15 volte più veloce. Non si tratta di un miglioramento marginale. È la differenza tra una finestra di contesto da un milione di token che rimane una specifica teorica e una che puoi effettivamente implementare in produzione senza che la tua fattura per le GPU vada alle stelle.
Il modello si basa sul MiniMax Sparse Attention (MSA), che sostituisce l'attenzione completa con la selezione dei blocchi KV per ridurre il carico di calcolo per token nei contesti lunghi, garantendo un prefill e una decodifica notevolmente più veloci pur mantenendo la qualità nella maggior parte dei compiti.
È interessante notare che MiniMax aveva eliminato l'attenzione sparsa nella generazione M2 per poi reintrodurla proprio per l'M3, il che fa supporre che l'architettura funzionasse già, ma che fossero necessari ulteriori dati di addestramento o un lavoro di allineamento post-addestramento per renderla competitiva. L'M3 sembra indicare che abbiano trovato la soluzione.
Cosa rende M3 davvero diverso
MiniMax ha lanciato M3, un modello all'avanguardia che combina tecniche di codifica e prestazioni agentiche con una finestra di contesto da 1 milione di token e multimodalità nativa, il tutto a un costo molto inferiore rispetto ai principali modelli proprietari.
Vale la pena soffermarsi sull'aspetto della multimodalità. M3 non si limita ad accettare immagini: è in grado di elaborare immagini e video e può gestire un computer desktop in modo nativo. Per i flussi di lavoro di programmazione intuitiva in cui si invia uno screenshot di un'interfaccia utente dicendo “costruiscimi questo”, ciò è davvero utile in un modo in cui un modello di programmazione basato solo sul testo non lo è.
MiniMax-M3 è il modello multimodale di codifica e agente all'avanguardia di MiniMax, basato sull'architettura MSA. Supporta una finestra di contesto fino a 1 milione di token e accetta input sotto forma di immagini e video. Il modello è progettato per la generazione di codice, i flussi di lavoro agentici, l'uso di strumenti, la comprensione di contesti estesi e il ragionamento in più fasi.
Il benchmark VIBE: lo standard creato da MiniMax
Una cosa da sottolineare: MiniMax non si è limitata a lanciare un modello, ma ha definito un nuovo standard di riferimento. Il VIBE (Benchmark visivo e interattivo per l'esecuzione) Il framework rappresenta la risposta di MiniMax a quella che l'azienda considera una lacuna nei framework di valutazione esistenti. A differenza dei benchmark tradizionali come SWE-bench e Terminal-bench, che si concentrano sulla correttezza statica del codice o sul completamento delle attività a livello di riga di comando, VIBE valuta automaticamente la logica di interazione e la presentazione visiva delle applicazioni generate in un ambiente di esecuzione reale, fornendo una valutazione più fedele dell'esperienza utente reale.
È un parametro di riferimento un po' di parte, certo — ma la critica di fondo non è sbagliata. SWE-bench indica se un modello è in grado di risolvere i problemi su GitHub; non indica se un modello è in grado di creare un'applicazione web funzionante e visivamente coerente a partire da uno screenshot. M3 ottiene un buon punteggio in questo ambito, il che è logico data la sua architettura multimodale nativa.
Test prestazionali del MiniMax M3
MiniMax M3 ottiene un punteggio di 59,01 TP3T su SWE-Bench Pro, 66,01 TP3T su Terminal-Bench 2.1, 34,81 TP3T su SWE-fficiency e 83,5 su BrowseComp. Il punteggio BrowseComp in particolare è sorprendente: 83,5 lo pone davanti a GPT-5.5 nelle attività di navigazione web autonoma, che è esattamente il tipo di capacità che si desidera in un agente che svolge un lavoro di codifica ad alta intensità di ricerca.
MiniMax M3 ottiene un punteggio di 59,01 TP3T su SWE-Bench Pro, superando GPT-5.5 e Gemini 3.1 Pro e avvicinandosi a Claude Opus 4,7. Ottiene inoltre un punteggio di 66,01 TP3T su Terminal Bench 2.1, 34,81 TP3T su SWE-fficiency, 28,81 TP3T su KernelBench Hard e 74,21 TP3T su MCP Atlas.
Una precisazione da tenere presente: nei propri documenti, MiniMax utilizza come riferimento di confronto Claude Opus 4.7, e non la versione più recente Opus 4.8. Questo quadro non è inesatto, ma gli sviluppatori che valutano M3 rispetto all'attuale limite massimo di riferimento dovrebbero utilizzare i dati di Opus 4.8, che collocano M3 più lontano dalla frontiera di quanto implichi l'annuncio di lancio.
Ciononostante, il punteggio di 59% ottenuto su SWE-Bench Pro da un modello a peso libero con un contesto di un milione di token è notevole, e i dati indipendenti confermano in larga misura che i numeri riportati dall'azienda sono sostanzialmente corretti.
Prezzi
Al momento del lancio, MiniMax M3 è stato quotato su OpenRouter a $0,60 per milione di token in ingresso e $2,40 per milione di token in uscita, con uno sconto promozionale temporaneo di 50% che lo porta a circa $0,30 in ingresso e $1,20 in uscita per milione di token — una frazione rispetto ai modelli chiusi di frontiera come Claude Opus e GPT-5.5.
Per contestualizzare: Claude Opus 4.8 costa $5/$25 per milione di token. M3, al prezzo promozionale, costa circa un ventesimo di quel prezzo. Anche al prezzo standard, si tratta di un decimo. Il rapporto qualità-prezzo è convincente quanto le prestazioni offerte.
Codice Kimi K2.7
Chi l'ha realizzato e perché
Moonshot AI ha lanciato ieri — 12 giugno 2026 — quella che rappresenta la quinta versione importante in meno di un anno per l'azienda con sede a Pechino, che ha incentrato i propri modelli su tre pilastri: capacità agentiche, gestione estesa del contesto e input multimodali. La famiglia Kimi K2 è diventata una delle linee di modelli open-weight più seguite del 2026, e K2.7 Code è la sua iterazione più avanzata finora.
Il cambio di nome è significativo. È la prima volta che Moonshot inserisce esplicitamente la parola “Code” nel nome del modello. Non stanno fingendo che K2.7 sia un modello generico: è ottimizzato per l'ingegneria, non per la chat in generale, e vogliono che lo sappiate.
Architettura: la stessa base da un trilione di parametri, ottimizzata ulteriormente
Kimi K2.7 Code è un modello Mixture-of-Experts da 1 trilione di parametri, con 32 miliardi di parametri attivi per token e 384 esperti, dotato di una finestra di contesto da 262.144 token, ereditata da K2.6, e di una funzione di compressione automatica del contesto per sessioni prolungate a lungo termine.
L'architettura in sé non è cambiata radicalmente rispetto alla versione K2.6: si tratta sempre del framework MoE da 1T che, all'inizio di quest'anno, ha permesso a Kimi K2.6 di posizionarsi al primo posto nella classifica dei modelli open-weight dell'Artificial Analysis Intelligence Index. Ciò che K2.7 Code rappresenta è un perfezionamento mirato: lo stesso telaio, con il motore rimesso a punto specificamente per i flussi di lavoro di codifica agentica.
Kimi K2.7 Code è il modello agentico incentrato sulla programmazione sviluppato da Moonshot AI e basato su Kimi K2.6. Migliora il completamento di compiti di programmazione a lungo termine nel mondo reale, l'esecuzione delle istruzioni e l'efficienza dei token, riducendo al contempo l'utilizzo di token di elaborazione di circa 30% rispetto a Kimi K2.6.
Quella riduzione di 30% nei token di ragionamento non è cosa da poco. In una sessione di agente di codifica di lunga durata in cui il modello esegue centinaia di turni, un minor numero di token di elaborazione si traduce in costi inferiori e tempi di esecuzione più rapidi. Se si esegue durante la notte un'operazione come la rifattorizzazione dell'intero repository, i guadagni in termini di efficienza di K2.7 rispetto a K2.6 si accumulano in modo significativo.
Cosa migliora effettivamente K2.7
L'annuncio di Moonshot si apre con tre cifre: +21,81 TP3T rispetto a K2.6 su Kimi Code Bench v2, +11,01 TP3T su Program Bench e +31,51 TP3T su MLS Bench Lite, oltre a un'affermazione secondo cui l'utilizzo di token di ragionamento sarebbe inferiore di circa 301 TP3T rispetto a K2.6.
Si tratta di dati forniti direttamente dall'azienda, ottenuti tramite le suite di benchmark di Moonshot. Va detto, in tutta onestà, che al 13 giugno 2026 — un giorno dopo il rilascio — non esistono dati indipendenti di terze parti per K2.7 sulle suite pubbliche standard — SWE-bench Verified, SWE-bench Pro, Terminal-Bench, LiveCodeBench, GPQA Diamond, AIME o MMLU-Pro. Tale verifica arriverà nei prossimi giorni. Sulla base della traiettoria di K2.6 (che ha prodotto benchmark indipendenti competitivi), i dati interni sono probabilmente accurati in linea di massima.
Il risultato più sorprendente finora nel campo dei modelli indipendenti: K2.7-Code ha totalizzato 81,1 punti nel test MCP Mark Verified, superando il punteggio di 76,4% ottenuto da Claude Opus 4.8. Questa suite verifica la corretta invocazione degli strumenti tramite il Model Context Protocol — controlli CI, aggiornamenti dei ticket e modifiche ai file in un unico ciclo. Il fatto che un modello open-weight stia ora battendo Opus 4.8 nell'uso degli strumenti MCP rappresenta, sotto ogni punto di vista, una svolta epocale per l'IA open-source.
La storia della piattaforma Kimi Code
Un aspetto spesso trascurato nei confronti tra modelli: K2.7-Code si avvia all'interno di Kimi Code — l'agente terminale open source di Moonshot — con piani di abbonamento a partire da $19 al mese. Moonshot sta competendo esplicitamente sull'intero stack: modello, CLI ed economia degli abbonamenti. Si tratta di un confronto economico tra Cursor e Kimi, e questo è importante per i team che valutano il loro flusso di lavoro di codifica AI in modo olistico piuttosto che limitarsi al solo modello grezzo.
Vale la pena provare la CLI di Kimi Code. È compatibile con la shell, supporta l'integrazione con il server MCP e, grazie alla licenza open source, non sei vincolato all'API di Moonshot se desideri gestirla in proprio.
Funzionalità multimodali
Come M3, K2.7 Code non si limita al testo. Gli sviluppatori possono caricare screenshot, diagrammi, bozzetti di prodotti o persino video e chiedere al modello di generare codice sulla base di questi elementi. Ciò lo rende utile per lo sviluppo frontend, il debug di problemi visivi e il reverse engineering delle interfacce. La capacità di visione è reale e davvero utile per attività di codifica incentrate sull'interfaccia utente, anche se la storia multimodale di K2.7 è leggermente più limitata rispetto a quella di M3 (che include l'uso del computer desktop).
Prezzi
I prezzi per Kimi K2.7 Code sono $0,95 per milione di token in ingresso, $4,00 per milione di token in uscita e $0,19 per milione di accessi alla cache, sull'API Moonshot. Su Hugging Face sono disponibili pesi gratuiti per l'hosting autonomo.
Per un modello da un trilione di parametri, un input di $0.95 è molto competitivo. Il prezzo in uscita ($4.00) è superiore a M3 in termini assoluti, ma la riduzione di 30% nei token di ragionamento di K2.7 significa che il costo reale per attività completata può essere inferiore a quanto suggerisce il numero grezzo per token. Il prezzo dovrebbe essere modellato in base al vostro carico di lavoro specifico, non solo alla tariffa di base.
Nemotron 3 Ultra
Chi l'ha realizzato e perché
Ecco l’aspetto di Nemotron 3 Ultra che la maggior parte degli articoli tende a sottovalutare: si tratta di NVIDIA che sviluppa un modello all’avanguardia. Non si tratta di un'azienda produttrice di chip che si cimenta nell'IA, né di un laboratorio di ricerca annesso a un'azienda di infrastrutture: NVIDIA, il cui fatturato dipende dai processi di addestramento IA di tutti gli altri, ha deciso di sviluppare e rilasciare un modello all'avanguardia e competitivo con una licenza completamente aperta. È una dichiarazione significativa su dove sta andando il mercato.
Il 4 giugno 2026, NVIDIA ha lanciato Nemotron 3 Ultra, un modello di ragionamento completamente open source con 550 miliardi di parametri, progettato specificamente per agenti a esecuzione prolungata.
Il 4 giugno 2026, NVIDIA ha pubblicato in sordina Nemotron 3 Ultra su Hugging Face, due giorni dopo che Jensen Huang lo aveva annunciato dal palco del Computex a Taipei. 550 miliardi di parametri. 55 miliardi attivi per ogni passaggio in avanti. Oltre 300 token al secondo. Il punteggio più alto in assoluto nell'Intelligence Index mai registrato da un modello open-weight sviluppato negli Stati Uniti.
Architettura: l'ibrido Mamba-Transformer che rivoluziona il settore
È qui che Nemotron 3 Ultra diventa interessante dal punto di vista tecnico. Mentre M3 utilizza l'attenzione sparsa per gestire contesti lunghi e K2.7 segue la collaudata strada dei trasformatori MoE, Nemotron Ultra intraprende una strada completamente diversa.
NVIDIA ha lanciato Nemotron 3 Ultra, un modello Mixture-of-Experts da 550 miliardi di parametri con 55 miliardi di parametri attivi, ottimizzato per l'orchestrazione di flussi di lavoro complessi e di lunga durata basati su agenti. Le innovazioni architetturali includono livelli ibridi Mamba-Transformer per una gestione efficiente dei contesti lunghi, la quantizzazione NVFP4 per l'implementazione su GPU di diverse architetture con un throughput fino a 5 volte superiore, LatentMoE per l'instradamento degli esperti e la previsione multi-token per una maggiore velocità generativa nelle attività a più turni.
L'approccio ibrido Mamba-Transformer è significativo. Gli strati Mamba gestiscono le dipendenze sequenziali in modo più efficiente rispetto all'attenzione standard nei contesti lunghi: scalano in modo lineare anziché quadratico con la lunghezza della sequenza. Combinando questo con l'attenzione del Transformer per i compiti che ne traggono vantaggio, e racchiudendo il tutto in un'architettura MoE, NVIDIA ottiene una combinazione insolita: elevata intelligenza, elevata produttività e un costo per token relativamente basso.
La quantizzazione NVFP4 rappresenta un altro elemento di differenziazione. Sulle GPU Blackwell (successori dell'H100), funziona con operazioni matematiche FP4 native. Su Hopper (H100), ricorre a W4A16. In entrambi i casi, Nemotron 3 Ultra raggiunge un throughput di inferenza 5,9 volte superiore rispetto a GLM-5.1, è 4,8 volte più veloce di Kimi K2.6 e 1,6 volte più veloce di Qwen-3.5 con impostazioni di 8K token in ingresso e 64K in uscita, pur raggiungendo una precisione pari a quella di altri modelli in un'ampia gamma di benchmark di ragionamento e di comportamento agente.
Rileggilo: 4,8 volte più veloce di Kimi K2.6 a parità di precisione. Per i team che utilizzano agenti di produzione, questa differenza di velocità si traduce direttamente nel costo per attività.
Indici di riferimento e indice di intelligence
Nemotron 3 Ultra ottiene un punteggio di 47,7 nell'Artificial Intelligence Analysis Index, ben al di sopra dei modelli statunitensi a peso aperto più performanti che lo seguono: Gemma 4 31B con 39,2, Nemotron 3 Super con 36,0 e gpt-oss-120b con 33,3.
L'avvertenza onesta si trova proprio lì, nello stesso paragrafo: è ancora indietro rispetto alla frontiera dei modelli open-weight guidati dalla Cina (Kimi K2.6 a 53,9). Questa è una notizia che riguarda innanzitutto gli Stati Uniti, ed è una buona notizia — ma Nemotron Ultra non è il miglior modello a peso libero al mondo in questo momento. È il migliore americano, e con un ampio margine.
Per quanto riguarda i compiti di tipo agentico, Nemotron 3 Ultra ottiene un punteggio di 90,0 su PinchBench e di 56,0 su ProfBench Search. Il team NVIDIA ha riservato entrambi come test di generalizzazione di verifica, valutati una sola volta sul modello finale. Ottiene un punteggio di 71,9 su SWE-Bench Verified e 56,4 su Terminal Bench 2.1. Per quanto riguarda il ragionamento, ottiene un punteggio di 570,0 su IOI 2025, che NVIDIA definisce come uno dei primi tre livelli di programmazione competitiva a livello umano.
Il punteggio verificato da SWE-Bench di 71,91 TP3T è particolarmente competitivo. Si colloca dietro a Claude Fable 5 e GPT-5.5 nella frontiera dei modelli chiusi, ma supera la maggior parte delle alternative open-weight — e, cosa importante, è misurato in modo coerente su diversi framework di agenti.
Per quanto riguarda AA-Omniscience, registra il punteggio più alto (78,7) tra i risultati non allucinatori del set, il che indica una minore tendenza a rispondere in caso di incertezza. Il contesto esteso mantiene le sue prestazioni su larga scala: il modello ottiene un punteggio di 94,7 su RULER con 1 milione di token.
Vale la pena soffermarsi su questo fenomeno di "allucinazione". Nei flussi di lavoro degli agenti di produzione, un modello che sa riconoscere quando non conosce una risposta è spesso più prezioso di uno che ottiene punteggi di qualche punto percentuale più alti nei benchmark, ma che si lascia andare a "allucinazioni" con sicurezza nei casi limite.
La storia dei dati di formazione aperti
NVIDIA ha rilasciato — complessivamente nei tre lanci di Nemotron 3 — 50 milioni di campioni per la messa a punto supervisionata, 2 milioni di attività di apprendimento per rinforzo e 55 ambienti di apprendimento per rinforzo. Un tale livello di apertura è insolito per una famiglia di modelli all'avanguardia ed è l'aspetto a cui la comunità di ricerca sull'IA ha reagito con maggiore entusiasmo.
Se desiderate ottimizzare o estendere Nemotron Ultra, non dovrete procedere alla cieca. Le ricette di addestramento, i dati e gli ambienti di valutazione sono tutti disponibili pubblicamente. Per i team aziendali che necessitano di prestazioni specifiche per il proprio settore e dispongono delle competenze necessarie per l'ottimizzazione, questo rappresenta un vantaggio significativo che né M3 né K2.7 Code sono attualmente in grado di eguagliare.
Prezzi
DeepInfra dispone già di un endpoint in versione preliminare, con un prezzo di $0,37/M in ingresso e $1,08/M in uscita — un valore migliore rispetto alla mediana per questa fascia di dimensioni. OpenRouter lo ha indicizzato e reso accessibile. L'integrazione aziendale è disponibile tramite i microservizi NVIDIA NIM su build.nvidia.com.
Nemotron 3 Ultra ha un costo di $0,50 per milione di token in ingresso e $2,50 in uscita su alcuni provider, offrendo un ottimo rapporto qualità-prezzo per un modello di questo livello di intelligenza.
Confronto diretto
Ecco un confronto diretto dei dati principali dei tre modelli, insieme a una spiegazione di cosa misura effettivamente ciascun parametro di riferimento:
SWE-Bench Pro (Risoluzione effettiva dei problemi su GitHub)
SWE-Bench Pro verifica la capacità di risolvere problemi reali segnalati su GitHub dopo la data di chiusura dell'addestramento di un modello, riducendo così il rischio di contaminazione dei dati rispetto alle precedenti versioni di SWE-Bench. È quanto di più vicino alla domanda “questo modello è in grado di correggere bug reali in codici reali?” che la comunità dei benchmark abbia prodotto finora.
- MiniMax M3: 59,01 TP3T (dati forniti dalla società)
- Nemotron 3 Ultra: ~56-71,91 TP3T (verificato da SWE-Bench); i dati di SWE-Bench Pro sono in attesa di conferma indipendente
- Kimi K2.7 Codice: K2.6 ha registrato 58,61 TP3T; i risultati interni di K2.7 indicano un punteggio simile o superiore — punteggio indipendente in attesa di conferma
Terminal-Bench 2.1 (Operazioni CLI in più fasi)
Terminal-Bench verifica ciò che gli agenti fanno effettivamente in produzione: operazioni della shell in più fasi in ambienti terminale attivi. Si tratta di una verifica più vicina alla domanda “è in grado di eseguire una pipeline di CI?” piuttosto che “è in grado di completare automaticamente il codice?”.”
- MiniMax M3: 66.0%
- Nemotron 3 Ultra: 56.4%
- Kimi K2.7 Codice: Il K2.6 ha chiuso a 67,21 TP3T; il K2.7 dovrebbe registrare un miglioramento rispetto a questo dato
Su Terminal-Bench, M3 e K2.7 si collocano su un livello simile, entrambi davanti a Nemotron Ultra. Ciò è comprensibile: M3 e la famiglia Kimi sono stati ottimizzati specificamente per attività di codifica a lungo termine, mentre le priorità di progettazione di Nemotron Ultra sono più ampie.
Utilizzo dello strumento MCP (Model Context Protocol)
L'utilizzo degli strumenti MCP sta diventando sempre più il parametro di riferimento più importante per le implementazioni degli agenti reali. Il corretto utilizzo degli strumenti non riguarda solo i punteggi dei benchmark, ma anche la capacità dell'agente di eseguire effettivamente le azioni giuste senza generare nomi di funzioni o parametri errati.
- Kimi K2.7 Codice: 81,1 su MCP Mark Verified (supera il 76,4 di Claude Opus 4.8)
- MiniMax M3: 74,2 su MCP Atlas (dati forniti dall'azienda)
- Nemotron 3 Ultra: Ottimi risultati per BFCL V4 (chiamata di funzioni); i punteggi esatti di MCP Mark non sono ancora stati pubblicati
K2.7 vince nettamente in questa categoria. La messa a punto agentica di Moonshot si è concentrata specificatamente sui modelli di richiamo degli strumenti, e i risultati si vedono.
Indice di analisi basata sull'intelligenza artificiale (punteggio composito)
Questo indice composito, basato su 10 valutazioni, comprende il ragionamento, le conoscenze, la matematica e la programmazione: si tratta, in sostanza, di una media ponderata dell'intelligenza generale di un modello.
- Famiglia Kimi K2.6 / K2.7: 53-54 (dati K2.7 in attesa di conferma)
- Nemotron 3 Ultra: 47.7
- MiniMax M3: Non ancora valutato (BenchLM colloca M3 al 76° posto su 100 nella classifica provvisoria, #29 su 122)
Velocità (gettoni al secondo)
È proprio qui che l'architettura di Nemotron Ultra fa la differenza:
- Nemotron 3 Ultra: Oltre 300 token al secondo su GB200, 5,9 volte più veloce di GLM-5.1, 4,8 volte più veloce di Kimi K2.6
- MiniMax M3: circa 100 token al secondo con un contesto di 1 milione di caratteri
- Kimi K2.7 Codice: Paragonabile al K2.6 (miglioramenti nella produttività derivanti dall'efficienza dei token piuttosto che dalla velocità pura)
Nelle implementazioni di produzione ad alta produttività in cui si eseguono molti agenti in parallelo, il vantaggio in termini di produttività offerto da Nemotron Ultra è notevole.
Prestazioni degli agenti nel mondo reale: Hermes, OpenClaw e WildClawBench
I benchmark sono una cosa. Il modo in cui questi modelli si comportano effettivamente nei framework di agenti che gli sviluppatori stanno implementando oggi è un'altra.
OpenClaw: il framework di agenti che sta conquistando il mercato
Se non avete ancora sentito parlare di OpenClaw, lo farete presto. In soli due mesi, OpenClaw ha raccolto 247.000 GitHub Stars, diventando una piattaforma di agenti AI adottata con entusiasmo dalle aziende della Silicon Valley e della Cina. È a esecuzione locale, indipendente dal modello e si integra con le app di messaggistica: tre caratteristiche che la rendono significativamente diversa dagli assistenti AI basati su SaaS.
OpenClaw è progettato per essere indipendente dal modello, il che significa che la qualità dell'esperienza utente dipende quasi interamente dal modello LLM che si integra nel back-end. È proprio qui che la scelta del modello assume un'importanza determinante.
Il Benchmark PinchBench OpenClaw prevede l'esecuzione di 23 attività relative all'esecuzione di codice, alla creazione di contenuti, alla ricerca e agli strumenti di sistema. Il test comprende 23 attività che coprono l'esecuzione di codice, la creazione di contenuti e gli strumenti di sistema — open source e riproducibili, utilizzando i dati dei test dell'agente OpenClaw di PinchBench.
In merito alla valutazione OpenClaw di PinchBench:
- Nemotron 3 Ultra: 90% su PinchBench Agent Productivity (a pari merito con Kimi K2.6 — il miglior modello open source cinese in termini di completamento delle attività secondo il benchmark)
- Kimi K2.7 Codice: Si prevede che eguaglierà o supererà l'ottimo risultato ottenuto da K2.6
- MiniMax M3: Punteggi di agenzia generalmente elevati; vale la pena sottolineare il vantaggio in termini di costi pari a 5 volte rispetto al Kimi K2.6 nei test pratici condotti da Composio
Da un confronto pratico condotto da Composio tra M3 e K2.6 (il predecessore di K2.7) è emerso un dato interessante: M3 ha richiesto $0,81 per 25 attività Composio, mentre Kimi ne ha richiesto $4,08 — circa 5 volte di più. L'M3 ha mostrato un netto vantaggio nella codifica di terminali complessi; l'orchestrazione degli strumenti SaaS di uso quotidiano è risultata sostanzialmente alla pari.
Questo divario di costo non è solo una questione economica: significa che è possibile eseguire cinque volte più iterazioni degli agenti a parità di budget, il che è fondamentale per le attività di programmazione che richiedono un'intensa fase di esplorazione, dove la velocità di iterazione rappresenta il collo di bottiglia.
Hermes Agent: il framework che non fa favoritismi
WildClawBench, pubblicato nel maggio 2026 da InternLM, è una delle valutazioni indipendenti degli agenti più rigorose attualmente disponibili. Il benchmark verifica ciò che conta davvero: un agente IA è in grado di svolgere un lavoro reale, end-to-end, senza bisogno di assistenza? Esegue la stessa suite di 60 attività utilizzando quattro diversi framework per agenti — OpenClaw, Claude Code, Codex CLI e Hermes Agent — separando le capacità del modello dall'infrastruttura del framework.
L'Hermes Harness, in particolare, è interessante perché è stato progettato per testare i modelli indipendentemente dall'infrastruttura degli agenti dei vari fornitori. È un indicatore chiaro della qualità del modello sottostante.
Nemotron 3 Ultra raggiunge punteggi SWEBench Verified compresi tra 65% e 70,4% con Pi, OpenHands, Hermes, OpenCode e Mini SWE Agent, garantendo prestazioni costanti indipendentemente dal framework utilizzato.
Questa coerenza tra i diversi harness costituisce un indicatore significativo della qualità. Molti modelli che ottengono buoni risultati nel proprio CLI subiscono un calo significativo delle prestazioni quando vengono trasferiti in un framework di agenti diverso. L'architettura di Nemotron Ultra sembra resistere bene ai cambiamenti di framework, probabilmente perché NVIDIA ha deliberatamente addestrato il modello su più harness di agenti per ogni tipo di attività, anziché ottimizzarlo per uno solo.
Per quanto riguarda i codici M3 e K2.7, i dati specifici relativi a WildClawBench stanno ancora circolando nella comunità, ma la tradizionale eccellenza della famiglia K2 nelle valutazioni di tipo agentico e i miglioramenti apportati al MCP del K2.7 lasciano presagire ottimi risultati con l'ambiente di test Hermes.
Conclusioni del quadro di riferimento
Se stai sviluppando su OpenClaw e il costo è un fattore determinante: M3 è il modello che fa per te. Se stai realizzando pipeline che fanno ampio uso di MCP: K2.7 Code è la scelta migliore. Se hai bisogno di una coerenza indipendente dal framework su Hermes, OpenClaw e altri contemporaneamente: la coerenza indipendente dall'harness di Nemotron Ultra è la scelta giusta.
Vibe Coding: quale modello permette davvero di sviluppare app di qualità?
“Il termine ”vibe coding” è ormai diventato sinonimo di uno stile di sviluppo assistito dall’intelligenza artificiale in cui si realizzano intere funzionalità o piccole applicazioni in modo iterativo a partire da indicazioni in linguaggio naturale, spesso basate su screenshot, bozzetti o descrizioni sommarie. Non si tratta tanto di generare codice in modo preciso, quanto piuttosto della capacità del modello di mantenere una visione coerente del prodotto attraverso numerose iterazioni, producendo al contempo un risultato funzionante e visivamente coerente.
Ciascuno di questi tre modelli affronta la codifica delle vibrazioni in modo diverso, e le differenze sono significative.
MiniMax M3: la base multimodale più potente
M3 è stato progettato appositamente per la dimensione visiva del "vibe coding". MiniMax ha introdotto il VIBE (Visual & Interactive Benchmark for Execution) proprio per misurare la capacità di un modello di creare applicazioni complete ed eseguibili partendo da zero, valutando automaticamente la logica di interazione e la presentazione visiva delle applicazioni generate in un ambiente di esecuzione reale.
Il fatto che M3 abbia introdotto questo benchmark è significativo. MiniMax ritiene chiaramente che i benchmark di programmazione standard — che verificano se il codice supera i test unitari — non colgano il punto che conta davvero nella programmazione intuitiva: l’app funziona? e Sembra giusto, vero?
In pratica, grazie alla possibilità di inserire direttamente video e immagini in M3, è possibile incollare uno screenshot di Figma o una sessione utente registrata e chiedere al modello di partire direttamente da lì. Si tratta di un flusso di lavoro sostanzialmente diverso rispetto alla descrizione a parole di ciò che si desidera. Per lo sviluppo frontend-heavy — componenti React, interfacce utente di app web, layout mobile-first — la capacità di input visivo di M3 cambia il ciclo in modi che i modelli di solo testo non possono eguagliare.
La finestra di contesto di 1 milione di token è importante per il vibe coding anche in un modo specifico: è possibile inserire nel contesto un intero codice di medie dimensioni, il che significa che il modello può rifattorizzare tra i vari file senza perdere la coerenza su ciò che sta costruendo. Questo è uno dei veri punti deboli della vibe coding con modelli a contesto ridotto: il codice inizia a divergere da se stesso nel corso dei turni man mano che il modello perde di vista le decisioni architetturali precedenti.
Kimi K2.7 Code: il miglior sistema di codifica per vibratori con strumenti integrati
Gli sviluppatori possono caricare screenshot, diagrammi, bozzetti di prodotti o persino video e chiedere a Kimi K2.7 di generare codice sulla base di questi elementi: una funzionalità utile per lo sviluppo front-end, la risoluzione di problemi visivi e il reverse engineering delle interfacce.
Il vantaggio di K2.7 nella programmazione interattiva è l'integrazione dello strumento MCP. Quando si esegue la compilazione tramite Kimi Code CLI, il modello può eseguire un ciclo su un terminale reale: eseguire l'app, controllare l'output, leggere i log degli errori e iterare — il tutto all'interno della stessa sessione. Quel ciclo end-to-end con feedback di esecuzione reale è ciò che distingue il ’generare codice“ dal ”compilare effettivamente il prodotto“.”
La riduzione del numero di token nel modello 30% è importante anche per il vibe coding, in particolare perché le sessioni di vibe coding tendono ad essere lunghe e conversazionali. Un modello che utilizza un numero inferiore di token per ogni fase di ragionamento è in grado di sostenere sessioni più lunghe a un costo inferiore, il che è perfettamente in linea con il modo in cui funziona effettivamente lo sviluppo iterativo delle app.
Nemotron 3 Ultra: potente ma meno specializzato
Nemotron Ultra è uno strumento versatile e potente, in grado di gestire bene gli input multimodali, ma le sue priorità progettuali sono state l'ottimizzazione della coerenza degli agenti e della profondità di ragionamento piuttosto che l'interfaccia visiva della programmazione intuitiva. Per i flussi di lavoro basati esclusivamente sulla programmazione intuitiva — inserimento di uno screenshot, creazione di un'app funzionante — M3 rappresenta la scelta più naturale.
Il punto di forza di Nemotron Ultra nei flussi di lavoro di sviluppo risiede nelle fasi di progettazione e analisi approfondita: la progettazione dei componenti di sistema, il debug di problemi complessi legati alla gestione degli stati o l'elaborazione di algoritmi complessi. Non si tratta tanto di “costruire questa interfaccia utente partendo da questo screenshot”, quanto piuttosto di “aiutarmi a progettare l'architettura e ad analizzare i casi limite”.”
Il verdetto di Vibe Coding
Per quanto riguarda il Vibe Coding, la classifica è la seguente: M3 (migliore integrazione visiva, contesto più ampio, più economico) → K2.7 Code (miglior ciclo di feedback sull'esecuzione reale, utilizzo degli strumenti più efficace) → Nemotron Ultra (eccellente assistente di ragionamento, meno specializzato nella creazione visiva di app).
Se ti occupi principalmente di sviluppo reattivo in un ambiente fortemente incentrato sull'aspetto visivo (React, Vue, mobile), M3 è la soluzione che fa per te. Se invece stai sviluppando app o sistemi in cui il backend riveste un ruolo centrale e il ciclo di iterazione prevede l'esecuzione e il collaudo del codice vero e proprio, l'integrazione MCP di K2.7 Code è la scelta vincente.
Prezzi e analisi del rapporto costo-prestazioni
Analizziamo i costi effettivi, perché i dati di riferimento riportati nei titoli hanno senso solo se considerati nel contesto di quanto si paga effettivamente.
| Modello | Dati di input (per 1 milione di token) | Rendimento (per 1 milione di token) | Contesto | Licenza |
|---|---|---|---|---|
| MiniMax M3 (versione promozionale) | $0.30 | $1.20 | 1 milione | Pesi liberi |
| MiniMax M3 (versione standard) | $0.60 | $2.40 | 1 milione | Pesi liberi |
| Codice Kimi K2.7 | $0.95 | $4.00 | 256K | MIT modificato |
| Nemotron 3 Ultra (DeepInfra) | $0.37 | $1.08 | 1 milione | OpenMDW 1.1 |
| Claude Opus 4.8 | $5.00 | $25.00 | — | Esclusivo |
| GPT-5.5 | ~$10.00+ | ~$30.00+ | — | Esclusivo |
Il quadro dei costi si fa più articolato se si tiene conto dell'efficienza. La riduzione del token 30% in K2.7 significa che una sessione che utilizza 1 milione di token in uscita su K2.6 ne utilizza circa 700.000 su K2.7. Con un output di $4.00/M, si ha un rapporto di $4.00 contro $2.80: non si tratta solo di una differenza di tariffa, ma di un risparmio in termini di efficienza. Nel corso di esecuzioni prolungate degli agenti, questo si accumula in modo significativo.
Nemotron Ultra a $0,37/$1,08 di DeepInfra è straordinariamente conveniente per un modello 550B con un indice di intelligenza pari a 47,7 — in parte grazie al suo vantaggio in termini di throughput (una velocità 5,9 volte superiore comporta un costo inferiore per attività completata, anche se le tariffe per token fossero le stesse).
L'M3 a prezzo promozionale è il più economico in termini assoluti, anche se il prezzo standard di $0,60/$2,40 rimane comunque un ottimo rapporto qualità-prezzo per una finestra di contesto da un milione di token con codifica di livello all'avanguardia.
Per la maggior parte delle implementazioni in produzione, il vero calcolo dei costi non si basa sui token per dollaro, ma sui completamenti per dollaro. Create una piccola suite di test rappresentativa delle vostre attività effettive e valutate il costo di ciascun modello in base a quella. Le tariffe indicate sono solo un punto di partenza, non la risposta definitiva.
Chi dovrebbe scegliere quale modello?
I tre modelli non sono in realtà in concorrenza tra loro per lo stesso ambito di applicazione. Ecco una sintesi pratica:
Scegli MiniMax M3 se:
- È necessaria una finestra di contesto più ampia per codici di grandi dimensioni, documenti lunghi o progetti composti da più file
- Il tuo flusso di lavoro è basato su elementi visivi (screenshot → codice, bozzetti → implementazione)
- Il costo è il tuo vincolo principale e devi eseguire molte iterazioni
- Stai sviluppando agenti browser o pipeline di ricerca autonome che sfruttano i punti di forza di BrowseComp
- Cerchi un unico modello in grado di gestire testo, immagini e video senza dover cambiare
Scegli Kimi K2.7 Code se:
- Stai realizzando pipeline integrate con MCP e hai bisogno della massima affidabilità nell'esecuzione degli strumenti
- Stai implementando una codifica agentica a lungo termine con flussi di lavoro terminali in più fasi
- Stai effettuando il deployment tramite la CLI di Kimi Code e desideri la massima integrazione tra modello e harness
- Desideri la flessibilità di un modello senza limiti di peso con licenza MIT modificata
- L'efficienza dei token nelle sessioni prolungate è importante (la riduzione 30% si accumula nel corso di lunghe serie di agenti)
Scegli Nemotron 3 Ultra se:
- La tua azienda ha sede negli Stati Uniti e, per motivi legati alla sicurezza dei dati in ambito geopolitico, sono esclusi i modelli di origine cinese
- È necessario un fine-tuning del modello con pieno accesso ai dati di addestramento, ai campioni SFT e agli ambienti RL
- La coerenza del framework è fondamentale: stai effettuando l'implementazione contemporaneamente su Hermes, OpenClaw e altri framework
- La capacità di elaborazione è fondamentale per le implementazioni di agenti in esecuzione simultanea su larga scala
- Ti occupi di attività che richiedono un forte lavoro di ragionamento: programmazione competitiva, architetture complesse, compiti di ragionamento di livello universitario
- Vuoi il miglior modello americano senza limiti di peso, punto e basta
Il caso limite più realistico: Se operi in una piccola startup o sei uno sviluppatore indipendente con requisiti di dati flessibili e il costo è il tuo vincolo principale, l'M3 al prezzo promozionale è davvero difficile da battere. Se ti trovi in un contesto aziendale statunitense regolamentato, Nemotron Ultra è la scelta predefinita più sicura ed è abbastanza competitivo da non farti sacrificare molto evitando i modelli di origine cinese.
L'elefante nella stanza: la protezione dei dati
Questo confronto sarebbe incompleto se non si affrontasse un argomento sempre più rilevante per le implementazioni aziendali.
MiniMax ha sede a Shanghai. Ai sensi della Legge nazionale cinese sull'intelligence, entrata in vigore nel 2017, ogni azienda cinese — compresa MiniMax — è tenuta per legge a “sostenere, assistere e collaborare con le attività di intelligence dello Stato”. Tale obbligo ha carattere permanente e non prevede alcuna via legale che consenta all'azienda di rifiutarsi di ottemperarvi in caso di richiesta da parte del governo.
Un'indagine del Congresso degli Stati Uniti annunciata il 29 aprile 2026 ha citato MiniMax insieme ad altri laboratori cinesi di intelligenza artificiale; Anthropic ha presentato nel febbraio 2026 accuse di distillazione su scala industriale contro Claude; e il 26 maggio 2026 è stata autorizzata la prosecuzione di una causa per violazione del copyright intentata da Disney, Universal e Warner Bros. Discovery in merito al prodotto Hailuo.
Le stesse considerazioni valgono per Kimi K2.7 Code di Moonshot AI (anch'essa con sede a Pechino). Il valore tecnico di questi modelli è innegabile, ma i team di approvvigionamento delle aziende operanti in settori regolamentati, le imprese legate al settore della difesa o qualsiasi organizzazione che gestisca proprietà intellettuale sensibile devono tenere conto di questi aspetti nel processo decisionale.
Il fatto che entrambi i modelli siano open-source offre una possibile soluzione: se si opta per l'hosting autonomo sulla propria infrastruttura e non si inviano mai richieste alle API di Moonshot o MiniMax, è possibile interrompere il flusso di dati verso l'infrastruttura cinese. Se ciò sia sufficiente ai fini dei requisiti di conformità è una questione legale e di rischio specifica per la propria organizzazione.
Nemotron Ultra è un modello di NVIDIA, azienda statunitense, distribuito sotto licenza OpenMDW-1.1 della Linux Foundation. Per le imprese statunitensi soggette a requisiti di sovranità dei dati, si tratta di un fattore di differenziazione significativo che le tabelle dei benchmark non riescono a cogliere.
Verdetto finale
Due settimane, tre uscite epocali. La storia dell'intelligenza artificiale a peso aperto nel giugno 2026 non è caratterizzata da un miglioramento graduale, ma da un cambiamento radicale.
MiniMax M3 è il più versatile dei tre e offre il miglior rapporto qualità-prezzo in termini di costo assoluto. Il suo contesto di 1 milione di token e la multimodalità nativa gli conferiscono un profilo unico per i lavori di sviluppo basati sulla grafica. Gli aspetti da tenere in considerazione sono i benchmark non verificati e le questioni relative alla privacy dei dati in ambito aziendale.
Codice Kimi K2.7 è attualmente il miglior modello di codifica agentica nel campo dei modelli a peso aperto, punto e basta. Superare Claude Opus 4.8 nell'uso degli strumenti MCP come modello a peso aperto non è una vittoria da poco nei benchmark: è la differenza tra una “dimostrazione di laboratorio impressionante” e “essere effettivamente più bravi in ciò che gli agenti fanno in produzione”. Il miglioramento dell'efficienza dei token 30% rispetto a K2.6 rende significativamente più economico l'esecuzione su larga scala. L'avvertenza: si tratta di uno specialista esclusivamente di codifica, i benchmark indipendenti sono ancora in arrivo e le questioni relative alla provenienza dei dati di Moonshot AI sono le stesse di MiniMax.
Nemotron 3 Ultra è il modello da implementare quando serve un modello open-weight all’avanguardia su cui poter contare in ambito aziendale, da ottimizzare in piena trasparenza, più veloce di qualsiasi altro modello dello stesso livello di intelligenza e supportato da quella credibilità nella catena di fornitura che rassicura i team legali e di approvvigionamento. Il suo vantaggio in termini di throughput di 4,8 volte rispetto a Kimi K2.6 è davvero rivoluzionario per i carichi di lavoro degli agenti di produzione, e la sua coerenza indipendente dall'harness nei benchmark degli agenti è un indicatore di qualità che le sole tabelle dei benchmark non riescono a trasmettere appieno.
Il messaggio più importante che si può trarre da questo periodo di due settimane è che la frontiera dell'IA open-source si è spostata da “quasi al pari dei modelli closed-source” a “migliore dei modelli closed-source su specifici aspetti rilevanti”. Il risultato ottenuto con lo strumento MCP nel K2.7 ne è la prova più evidente finora. Non stiamo più aspettando che l'open source recuperi terreno: in determinati aspetti, è già in vantaggio.
Avete già testato qualcuno di questi modelli in produzione? Condividete la vostra esperienza nei commenti, soprattutto se avete eseguito sessioni di agenti in confronto diretto su OpenClaw o Hermes. In questo momento, i dati raccolti sul campo hanno un valore maggiore di qualsiasi benchmark.
Per ulteriori approfondimenti sui modelli di IA, segui tech.grahammiranda.com.










