Casa / Strumenti AI / GLM 5.2 vs MiniMax M3 vs Kimi K2.7-Code: le due settimane che hanno rivoluzionato la programmazione open source (2026)

GLM 5.2 vs MiniMax M3 vs Kimi K2.7-Code: le due settimane che hanno rivoluzionato la programmazione open source (2026)

GLM 5.2 vs MiniMax M3 vs Kimi K2.7: confronto tra modelli di codifica open source 2026

Tre modelli di intelligenza artificiale all'avanguardia. Due settimane. Se all'inizio di giugno del 2026 hai battuto le palpebre, ti sei perso un'intera generazione di modelli di IA open-source mentre ti versavi un'altra tazza di caffè.

Lavoro con queste cose ogni giorno: agenti, flussi di lavoro CLI, tutta quella parte poco affascinante che trasforma un modello in qualcosa che funziona davvero. Quindi questo non è l'ennesimo articolo che si limita a riportare i risultati dei benchmark. È il confronto che avrei voluto ricevere il 14 giugno, quando tutti e tre questi modelli sono diventati improvvisamente reali, scaricabili e in lizza per un posto nel mio stack.

Ecco la versione breve per i più impazienti: MiniMax M3, GLM 5.2 e Kimi K2.7-Code non sono lo stesso strumento con loghi diversi. Uno è un cavallo di battaglia multimodale per contesti estesi, un altro è un vero affare per la pianificazione del codice con una finestra di un milione di token, mentre il terzo è uno specialista nell'uso degli strumenti che, senza fare troppo rumore, supera in efficienza modelli che costano cinque volte di più. Scegliete male e finirete per pagare troppo o ottenere risultati inferiori alle aspettative. Rimediamo a questa situazione.

Concetto di flusso di lavoro di programmazione Vibe, in cui l'intelligenza artificiale trasforma i prompt in software funzionante
Vibe Coding: creare software guidando il processo in base all'intento, anziché digitando ogni singola riga.

Perché giugno 2026 è sembrato come se il terreno ci crollasse sotto i piedi

Fai un passo indietro per un attimo, perché è la cronologia a raccontare tutta la storia.

  • 1 giugno — MiniMax presenta M3, un modello multimodale a peso variabile con una finestra di contesto di 1 milione di token e una nuovissima architettura a attenzione sparsa.
  • 12 giugno — Moonshot AI lancia su Hugging Face Kimi K2.7-Code, un modello specializzato nella programmazione con un trilione di parametri.
  • 12 giugno — Il governo statunitense ordina ad Anthropic di sospendere l'accesso a livello globale ai suoi modelli di punta Fable 5 e Mythos 5, invocando una direttiva sul controllo delle esportazioni.
  • 13 giugno — Zhipu AI (Z.ai) lancia GLM 5.2 su tutti i livelli del proprio piano di programmazione e promette di rendere disponibili i pesi in open source con licenza MIT entro una settimana.

Così, nel giro di circa dodici giorni, sono stati lanciati due dei modelli di codifica open source più avanzati al mondo, ne è arrivato un terzo e i modelli più potenti della frontiera occidentale sono stati ritirati dalla scena internazionale. Il vuoto è stato colmato prima ancora che la maggior parte dei team si rendesse conto della sua esistenza.

Questo è il vero titolo. Non “La Cina ha recuperato terreno”: quella formulazione è ormai superata da un anno. La notizia ora è che La frontiera del peso aperto avanza più rapidamente di qualsiasi ciclo di approvvigionamento, di qualsiasi roadmap trimestrale o di qualsiasi post sul blog. Quando un modello raggiunge una fase di benchmarking indipendente, il suo successore è già in fase di addestramento. Se la vostra strategia tecnologica parte dal presupposto di poter standardizzare l'uso di un unico modello per diciotto mesi, tale strategia è già destinata a fallire.

Il rovescio della medaglia è una vera e propria buona notizia per gli sviluppatori: avete ora un margine di manovra che nel 2024 non avevate. Tre fornitori, tutti desiderosi di affermarsi, tutti in competizione tra loro sui prezzi, tutti in grado di offrire soluzioni che potete gestire autonomamente. Una concorrenza come questa è esattamente ciò che fa salire la qualità e abbassare i costi. Il trucco sta nel capire tra quali opzioni state effettivamente scegliendo.


Ecco i tre candidati

Prima del confronto diretto, ecco una breve e sincera presentazione di entrambi — compresa quella parte che la maggior parte degli articoli di lancio tende a tralasciare: quali dati sono stati verificati in modo indipendente e quali invece sono stati calcolati dal fornitore stesso.

MiniMax M3 — il camion multimodale per il trasporto a lunga percorrenza

MiniMax, il laboratorio di Shanghai, ha lanciato M3 il 1° giugno. La sua caratteristica distintiva non è un benchmark, bensì un'architettura. M3 funziona su MiniMax Sparse Attention (MSA), che sostituisce l'elaborazione completa con un sistema che elabora solo i blocchi rilevanti di un contesto esteso. Il vantaggio pratico: circa un ventesimo della potenza di calcolo per token a 1 milione di token rispetto alla generazione precedente, con un prefill che risulta 9 volte più veloce e una decodifica oltre 15 volte più veloce.

È più importante di quanto sembri. I modelli a contesto lungo tendono a rallentare: sono lenti, costosi e diventano sempre meno efficaci man mano che si scende in profondità. MSA è la scommessa di MiniMax sul fatto che sia possibile avere una finestra di un milione di token realmente utilizzabile senza che i costi o la latenza salgano alle stelle.

M3 è inoltre multimodale di default: accetta testo, immagini e video in ingresso e produce testo in uscita. È l'unico modello di questo trio in grado di leggere uno screenshot o una registrazione dello schermo senza bisogno di componenti aggiuntivi. MiniMax riporta un punteggio SWE-Bench Pro di 59,01 TP3T, che secondo quanto dichiarato supera di poco GPT-5.5 e Gemini 3.1 Pro, pur rimanendo al di sotto di Claude Opus 4.8. Nell'elenco di OpenRouter, il prezzo si aggirava intorno a $0,30 per milione di token in ingresso e $1,20 per milione di token in uscita al momento del lancio (tariffa promozionale; il prezzo standard è circa il doppio), con letture dalla cache vicine a $0,06.

L'asterisco: Questi benchmark sono stati eseguiti sull'infrastruttura di MiniMax utilizzando la propria struttura di agenti. È bene considerarli indicativi, non definitivi, finché non interverranno organismi indipendenti. Inoltre, se si utilizza l'API ospitata anziché gestire autonomamente i pesi, è bene ricordare che il fornitore opera sotto la giurisdizione cinese: un aspetto da tenere in seria considerazione per chiunque abbia a che fare con dati soggetti a regolamentazione o dati dei clienti.

GLM 5.2 — il modello di codifica con una finestra di 1 milione

Il GLM 5.2 di Zhipu è stato lanciato il 13 giugno e ha fatto due grandi promesse: un finestra di contesto da 1 milione di token realmente utilizzabile e Pesi open source con licenza MIT sarà disponibile entro una settimana dall'uscita. Secondo quanto riportato, si tratterebbe di un modello Mixture-of-Experts di grandi dimensioni — una cifra spesso citata è quella di 744 miliardi di parametri totali, di cui 40 miliardi attivi — sviluppato con un approccio "coding-first" e dotato di due modalità di elaborazione (High e Max, quest'ultima consigliata per i casi più complessi).

Ciò che rende GLM 5.2 interessante per gli sviluppatori professionisti non è una classifica. È il Piano di codifica GLM. Il piano base costa circa $18 al mese per circa 400 prompt a settimana, con opzioni superiori come il piano Pro (~2.000/settimana), Max (~8.000 a settimana) e un piano Team basato sui posti — e GLM 5.2 è incluso in tutti questi piani senza alcun sovrapprezzo rispetto alla versione 5.1. Si tratta all’incirca di un decimo di quanto costano i piani premium comparabili Claude Code e Claude Max. Per uno sviluppatore indipendente o una piccola azienda, quel rapporto prezzo-funzionalità è difficile da battere.

Inoltre, si integra perfettamente con gli strumenti che già utilizzi. Il supporto immediato include Claude Code, Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw e Kilo Code. Se il tuo agente supporta un'API di tipo OpenAI o Anthropic e ti permette di impostare un endpoint personalizzato, GLM 5.2 richiede solo una modifica alla configurazione: punta il client all'endpoint di Z.ai e imposta il modello su glm-5.2.

L'asterisco: Al momento del lancio, Zhipu ha pubblicato no benchmark ufficiali. Niente SWE-bench, niente LiveCodeBench, niente di niente. Sono trapelati alcuni primi risultati di terze parti (una fonte l'ha classificato al primo posto in un benchmark di ragionamento chiamato BridgeBench con circa 300 token al secondo), ma al momento le verifiche sono davvero scarse. Se la qualità di un modello è importante per la produzione, è meglio testarlo personalmente prima di fidarsi del marketing.

Kimi K2.7-Code — lo specialista nell'uso degli utensili che fa la differenza

Il K2.7-Code di Moonshot AI è stato lanciato il 12 giugno ed è il più specifico dei tre. Si tratta di un Modello Mixture-of-Experts da 1 trilione di parametri con 32 miliardi di parametri attivi per token (384 esperti, 8 selezionati più 1 condiviso, 61 livelli, attenzione MLA), a Finestra di contesto da 256K token, e un encoder di visione con 400 milioni di parametri per immagini e video. I pesi sono disponibili su Hugging Face con licenza MIT modificata e forniti in formato nativo INT4.

Il punto di forza è l'efficienza, non le dimensioni. K2.7-Code consuma circa Il 30% ha un numero inferiore di gettoni “pensiero” rispetto al suo predecessore, il K2.6 ottenendo al contempo punteggi più elevati nei benchmark di programmazione di Moonshot (+21,81 TP3T su Kimi Code Bench v2, +11,01 TP3T su Program Bench, +31,51 TP3T su una suite multilingue). Un minor numero di token di ragionamento per risultati migliori si traduce direttamente in una fattura più bassa nei flussi di lavoro a consumo di token.

Ma il dato che mi ha fatto drizzare le orecchie è Certificato MCPMark: K2.7-Code ottiene un punteggio di 81,1, superando il 76,4 di Claude Opus 4.8 in attività concrete di utilizzo degli strumenti in ambienti quali GitHub, Postgres, Filesystem e Playwright. Per i compiti di tipo "agentico" — in cui il modello non scrive una funzione in modo isolato, ma coordina gli strumenti attraverso diverse fasi — questa è la metrica che permette di prevedere se l'agente porterà effettivamente a termine il lavoro. Il prezzo dell'API è di circa 1,95 per l'input e 4,00 per l'output per ogni milione di token, con un piano Kimi Code CLI a partire da 19 al mese.

Gli asterischi (due): In primo luogo, tutti i benchmark K2.7 pubblicati finora provengono dalle suite proprietarie di Moonshot: non sono ancora disponibili dati indipendenti provenienti da SWE-bench Verified, LiveCodeBench o Terminal-Bench. In secondo luogo, “pensare” è sempre attivo (con preservare il pensiero (attraverso le iterazioni) e non esiste una modalità istantanea, quindi si paga il "prezzo del ragionamento" per ogni chiamata, che lo si voglia o no. E l'hosting autonomo è brutale: il quant K2.6 comparabile pesa circa 340 GB e richiede oltre 350 GB di RAM e VRAM combinate. Per quasi tutti, ciò significa noleggiare l'API, non possedere il modello.


Il confronto diretto, in una tabella

Ecco il confronto ridotto all'essenziale, ovvero a ciò che conta davvero per prendere una decisione. Laddove un dato è fornito dal produttore, l'ho specificato, perché un confronto che nasconde le proprie incertezze non è altro che marketing mascherato da tabella.

GLM 5.2MiniMax M3Kimi K2.7-Code
LaboratorioZhipu AI (Z.ai), PechinoMiniMax, ShanghaiMoonshot AI, Pechino
Pubblicato13 giugno 20261° giugno 202612 giugno 2026
Finestra di contesto1 milione di token1 milione di token256.000 gettoni
ArchitetturaMoE (~744 miliardi/40 miliardi attivi, dati riportati)MoE + attenzione sparsa (MSA)MoE, 1T in totale / 32 miliardi attivi
MultimodaleNo (programmazione prima di tutto)Sì — testo, immagini, videoSì — immagini e video tramite codificatore video
LicenzaMIT (pesi non specificati, circa una settimana dopo il lancio)Pesi disponibili a breve (~10 giorni)MIT modificato (pesi in tempo reale)
Forza del titolo1 MB di traffico dati + piano tariffario economicoMultimodale a contesto esteso + velocitàUso degli strumenti / MCP, efficienza dei token
Segnale di prezzoPiano ~$18/mese (circa 1/10 dei livelli di Claude)~$0,30/$1,20 per 1 milione (offerta promozionale)~$0,95/$4,00 per 1 milione; $19/mese CLI
Stato del benchmarkNessuna versione ufficiale al momento del lancioGestito dal fornitore (59% SWE-Bench Pro)Gestito dal fornitore (81,1 MCPMark, supera Opus di 4,8)
La pesca più grandeNon comprovato, nessuna valutazione indipendenteSotto la giurisdizione cineseSempre in funzione; oltre 340 GB per l'hosting autonomo

Una classifica tra i modelli di sviluppo che ha fatto il giro del web dopo una serie di test pratici ha posizionato il gruppo più ampio all'incirca in questo ordine: Fable 5 in testa, seguito da Kimi K2.7, poi Opus 4.8 alla pari con GLM 5.2, quindi GPT-5.5 e infine MiniMax M3 — ma prendete questi dati con le pinze. Si tratta della classifica stilata da un singolo tester, su una serie di compiti, in una settimana in cui la metà di questi modelli non aveva ancora dati verificati. L'unico ranking che conta è quello del vostro carico di lavoro.


Ma allora, che ruolo ha il “vibe coding” in tutto questo?

Vale la pena soffermarsi su questo punto, perché il termine viene usato in modo improprio. Codifica Vibe è il flusso di lavoro in cui descrivi ciò che desideri in un linguaggio semplice e lasci che sia il modello a scrivere, eseguire e correggere il codice: sei tu a guidare il processo in base alle intenzioni e all'intuito, anziché digitare ogni riga personalmente. Per molte persone (me compreso, in numerosi progetti), questo è ormai il modo standard in cui viene sviluppato il software.

Non è più un'idea marginale. Zhipu ha intitolato il documento tecnico proprio "GLM-5" “Dal Vibe Coding all’Agentic Engineering” — Gli stessi laboratori vedono questa come la traiettoria da seguire: una fase iniziale di prototipazione informale e dialogica che evolve in un processo di ingegnerizzazione strutturato e autonomo, in grado di funzionare per ore senza supervisione.

Ma ecco la cosa che nessuno ti dice: Il modello migliore per descrivere un'atmosfera dipende interamente dalla fase in cui ti trovi.

  • Prototipazione iniziale, esplorativa, del tipo “fammi qualcosa” — quando si procede rapidamente, si provano schermate a raffica e si cambia idea ogni due minuti — serve un modello economico, veloce e tollerante, con input multimodali. MiniMax M3 qui dà il meglio di sé. Il basso costo in gettoni ti permette di sperimentare senza remore, e il fatto di poter inserire uno screenshot di un progetto invece di descriverlo rappresenta una vera e propria svolta nel flusso di lavoro.
  • Programmazione in un ambiente con un codice di grandi dimensioni — “Leggi tutto il mio repository e rifattorizza il livello di autenticazione” — è proprio qui che la finestra di contesto fa la differenza. GLM 5.2 Una finestra da un milione di token (insieme a quel piano di codifica economico) ti permette di avere sempre sotto controllo l'intero progetto senza doverlo spiegare continuamente, il che rappresenta la principale fonte di attrito nel lavoro degli agenti.
  • Il lato serio: configurazioni orientate all'agente, a lungo termine e con un uso intensivo di strumenti che coinvolgono il tuo database, il tuo file system e la cronologia Git attraverso centinaia di passaggi — richiede un modello che non perda il filo del discorso a metà dell'operazione. Kimi K2.7-Code I punteggi relativi all'uso degli strumenti sono stati pensati proprio per questo. Quando il compito non consiste tanto nello “scrivere una funzione”, quanto piuttosto nel “gestire l'intera catena di strumenti per implementare una funzionalità”, un utilizzo affidabile degli strumenti ha sempre la meglio su un codice più elegante.

La scomoda verità: la programmazione intuitiva amplifica qualsiasi modello le si fornisca. Un modello eccellente, abbinato a un buon contesto, trasforma un'idea vaga in un software funzionante. Uno scadente la trasforma invece in un ammasso di bug che non hai scritto tu e che non riesci a capire. Scegli il modello per il palcoscenico, non il clamore mediatico.

Calendario delle uscite di GLM 5.2, MiniMax M3 e Kimi K2.7-Code nel giugno 2026
Tre modelli open-weight di livello professionale consegnati in circa dodici giorni.

Quale dovresti usare, in realtà?

Lasciamo da parte i giri di parole diplomatici. Ecco come prenderei la decisione.

Scegli MiniMax M3 se Il tuo lavoro è caratterizzato da contesti estesi e multimodali: revisione di codici di grandi dimensioni, ragionamenti che coinvolgono più file o qualsiasi flusso di lavoro in cui screenshot, diagrammi o video fanno parte degli input. È anche quello a cui ricorrerei quando il costo per iterazione è il vincolo determinante, perché l'architettura a attenzione sparsa mantiene veloce ed economico il lavoro a lungo termine. Basta ospitare autonomamente i pesi per qualsiasi cosa sensibile.

Scegli GLM 5.2 se Se cerchi il massimo rendimento per ogni euro speso e gestisci un codice di grandi dimensioni, il piano di programmazione, che costa circa un decimo del prezzo della versione premium di Claude, offre una finestra reale di 1 milione di token e un supporto immediato e senza intoppi per Claude Code e simili, rendendolo la scelta predefinita più ovvia per gli sviluppatori indipendenti e i team snelli. L'unico problema è la fiducia: devi fidarti prima che arrivino i benchmark indipendenti, quindi crea un prototipo prima di fissare una scadenza.

Scegli Kimi K2.7-Code se Stai sviluppando agenti autonomi che gestiscono strumenti — server MCP, database, browser, file system — nel corso di sessioni prolungate. Le prestazioni relative all'utilizzo degli strumenti sono il risultato di spicco di questo intero confronto, e i miglioramenti nell'efficienza dei token riducono direttamente i costi di gestione. Paga la tariffa API piuttosto che lottare contro il requisito di self-hosting da 340 GB e accetta che il sistema sia sempre attivo.

Oppure — ed è quello che faccio io — usale tutte e tre. Organizzazione per attività. Iterazioni multimodali a basso costo su M3, rifattorizzazioni su larga scala su GLM 5.2, esecuzioni di agenti ad alta intensità di strumenti su Kimi. Strumenti come Kilo Code, OpenCode e Claude Code rendono il cambio di provider una semplice modifica alla configurazione, non una migrazione. In un mercato in rapida evoluzione come questo, la portabilità batte la fedeltà. Organizza il tuo flusso di lavoro in modo da poter cambiare modello nel giro di un pomeriggio: così trasformerai il caos del giugno 2026 da una minaccia a un vantaggio.


Una nota sulla credibilità di questi dati

Una breve riflessione, perché vi eviterà un bel mal di testa. Quasi tutti i benchmark citati in questo articolo sono forniti dai produttori stessi. GLM 5.2 è stato lanciato senza alcuno di essi. Anche le suite pubbliche più apprezzate presentano problemi di contaminazione: SWE-Bench Pro esiste in parte proprio perché alcuni benchmark obsoleti sono finiti nei dati di addestramento, gonfiando i punteggi.

Niente di tutto ciò rende questi modelli inadeguati. Significa semplicemente che l'unico parametro di riferimento che conta è il tuo repository, i tuoi compiti, la tua definizione di “completato”. Prepara una piccola valutazione ripetibile — tre o quattro ticket reali dal tuo backlog — e verifica ogni modello su di essa prima di procedere. Un pomeriggio di test vi dirà più di tutti i post sul blog pubblicati il giorno del lancio messi insieme, compreso questo.


Domande frequenti

GLM 5.2 è davvero gratuito? I modelli sono disponibili con licenza MIT e, una volta rilasciati, possono essere scaricati e ospitati autonomamente gratuitamente. Il piano di codifica GLM in hosting è a pagamento, con un costo a partire da circa 1 TP4T18 al mese; tuttavia, si tratta all'incirca di un decimo rispetto ai piani premium equivalenti di Claude, e GLM 5.2 è incluso in ogni livello del piano senza costi aggiuntivi.

Qual è la soluzione migliore, in particolare per la programmazione di sistemi di vibrazione? Non c'è un unico vincitore. MiniMax M3 è ideale per la prototipazione veloce, economica e multimodale; GLM 5.2 per la programmazione intuitiva all'interno di grandi base di codice grazie alla sua finestra da 1 milione di token; Kimi K2.7-Code per build agentiche complesse e ricche di strumenti. Scegli il modello in base alla fase in cui ti trovi.

Posso usarli con Claude Code? Sì. GLM 5.2 supporta Claude Code fin dal primo giorno: basta indirizzare il client all'endpoint di Z.ai e impostare il modello su glm-5.2. Sia Kimi che MiniMax mettono a disposizione API compatibili con OpenAI e Anthropic, quindi la maggior parte degli strumenti di programmazione agentica li accetta come endpoint personalizzati con una semplice sostituzione della chiave.

Quale ha la finestra di contesto più ampia? Sia GLM 5.2 che MiniMax M3 offrono 1 milione di token. Kimi K2.7-Code ne offre 256.000: un numero inferiore, ma comunque sufficiente per la maggior parte dei lavori su un singolo repository.

I punteggi dei benchmark sono affidabili? Considerateli indicativi. A metà giugno 2026, la maggior parte dei punteggi pubblicati proviene da test condotti dai fornitori sulle infrastrutture dei laboratori stessi, e GLM 5.2 è stato lanciato senza benchmark ufficiali. Effettuate una vostra valutazione su attività reali prima di passare alla produzione.

Posso far funzionare qualcuno di questi su un computer normale? Non si tratta di sistemi di piccole dimensioni. Kimi K2.7-Code richiede circa 350 GB o più di RAM e VRAM combinate per l'hosting autonomo, e anche gli altri sono modelli MoE di grandi dimensioni. Per la maggior parte delle persone l'API ospitata o un provider gestito rappresentano la soluzione più pratica; l'hosting autonomo è riservato ai team con budget consistenti per le GPU o con requisiti rigorosi in materia di residenza dei dati.


In conclusione

Due settimane nel giugno del 2026 hanno offerto agli sviluppatori tre validi modelli di codifica a peso aperto, un settore che ora è davvero competitivo in termini di prezzo e un chiaro segnale che il ritmo non sta rallentando. MiniMax M3 è il tuo motore di prototipazione multimodale, a lungo termine ed economico. GLM 5.2 è la scelta più vantaggiosa in termini di prestazioni per euro per i progetti con codici di grandi dimensioni, a patto che ci si possa fidare prima che vengano pubblicati i benchmark. Kimi K2.7-Code è lo specialista nell'uso degli strumenti per costruzioni realmente agenti.

La mossa più intelligente non è scegliere un preferito, bensì creare un flusso di lavoro abbastanza flessibile da poter utilizzare quello più adatto al compito da svolgere e passare al modello successivo quando, inevitabilmente, uscirà il mese prossimo. In un mercato così dinamico, l'adattabilità è la strategia.

Se stai cercando di capire come integrare tutto questo nel tuo stack — che si tratti di collegare questi modelli a un agente di programmazione, di implementare l'automazione basata sull'intelligenza artificiale nella tua azienda o semplicemente di ottenere un parere obiettivo prima di prendere una decisione definitiva — questo è esattamente il tipo di lavoro che svolgo presso Graham Miranda. Contattaci e costruiamo qualcosa che duri più a lungo del ciclo delle notizie.


Hai un modello che secondo te dovrebbe essere incluso in questo confronto, o un carico di lavoro per cui non riesci a decidere come gestirlo? Scrivilo nei commenti: li leggo e aggiorno queste guide man mano che il settore evolve (cosa che, ultimamente, avviene continuamente).

Tag:

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

it_ITItaliano