Drei bahnbrechende Codierungsmodelle. Zwei Wochen. Wer Anfang Juni 2026 nur einmal kurz wegschaute, verpasste eine ganze Generation von Open-Weight-KI-Lösungen, während er sich gerade seinen Kaffee nachfüllte.
Ich arbeite jeden Tag mit diesen Dingen – Agenten, CLI-Workflows, die unscheinbare Infrastruktur, die aus einem Modell etwas macht, das tatsächlich seine Arbeit erledigt. Das hier ist also kein Artikel, der nur Benchmark-Ergebnisse aneinanderreiht. Es ist der Vergleich, den ich mir am 14. Juni gewünscht hätte, als alle drei dieser Modelle plötzlich real und zum Herunterladen verfügbar waren und um einen Platz in meinem Stack kämpften.
Hier ist die Kurzfassung für Ungeduldige: MiniMax M3, GLM 5.2 und Kimi K2.7-Code sind nicht dasselbe Tool mit unterschiedlichen Logos. Das eine ist ein multimodales Arbeitstier für lange Kontexte, das andere ein preiswertes Modell mit einem Fenster von einer Million Token, und das dritte ein Spezialist für den Einsatz von Werkzeugen, der Modelle, die fünfmal so viel kosten, still und leise in den Schatten stellt. Wählen Sie das falsche Modell, und Sie zahlen entweder zu viel oder erhalten zu wenig. Das wollen wir ändern.

Warum es sich im Juni 2026 so anfühlte, als würde der Boden unter den Füßen wegbrechen
Halten Sie einen Moment inne, denn schon die Zeitleiste allein spricht Bände.
- 1. Juni — MiniMax stellt M3 vor, ein multimodales Modell mit offenem Gewichtungsbereich, einem Kontextfenster von 1 Million Token und einer brandneuen Sparse-Attention-Architektur.
- 12. Juni — Moonshot AI veröffentlicht „Kimi K2.7-Code“, einen auf Codierung spezialisierten Modell mit einer Billion Parametern, auf Hugging Face.
- 12. Juni — Die US-Regierung weist Anthropic an, den weltweiten Zugang zu seinen Spitzenmodellen „Fable 5“ und „Mythos 5“ auszusetzen, und beruft sich dabei auf eine Exportkontrollverordnung.
- 13. Juni — Zhipu AI (Z.ai) stellt GLM 5.2 für alle Stufen seines Programmierangebots bereit und verspricht, die Gewichte innerhalb einer Woche unter der MIT-Lizenz offen zu legen.
So wurden innerhalb von etwa zwölf Tagen zwei der leistungsfähigsten Open-Source-Modelle der Welt auf den Markt gebracht, ein drittes kam hinzu, und die leistungsstärksten Modelle aus dem Westen wurden vom internationalen Markt genommen. Das entstandene Vakuum war bereits gefüllt, bevor die meisten Teams überhaupt bemerkten, dass es eines gab.
Das ist die eigentliche Schlagzeile. Nicht “China hat aufgeholt” – diese Sichtweise ist schon ein Jahr alt. Die Geschichte lautet jetzt: Die Grenze des Open-Weight-Ansatzes verschiebt sich schneller als jeder Beschaffungszyklus, jede vierteljährliche Roadmap und jeder Blogbeitrag. Sobald ein Modell über unabhängige Benchmark-Ergebnisse verfügt, befindet sich sein Nachfolger bereits in der Trainingsphase. Wenn Ihre Technologiestrategie davon ausgeht, dass Sie achtzehn Monate lang auf ein einziges Modell setzen können, ist diese Strategie bereits gescheitert.
Die Kehrseite ist eine echte gute Nachricht für Entwickler: Ihr habt jetzt Einflussmöglichkeiten, die ihr 2024 noch nicht hattet. Drei Anbieter, alle hungrig, alle unterbieten sich gegenseitig beim Preis, alle liefern Lösungen, die ihr selbst hosten könnt. Ein solcher Wettbewerb ist genau das, was die Qualität steigert und die Kosten senkt. Die Kunst besteht darin, zu wissen, womit ihr euch tatsächlich entscheiden müsst.
Lernen Sie die drei Kandidaten kennen
Vor dem direkten Vergleich eine kurze, ehrliche Vorstellung der beiden Produkte – einschließlich des Aspekts, den die meisten Berichte zur Markteinführung auslassen: Welche Zahlen sind unabhängig überprüft und bei welchen gibt der Anbieter seine eigenen Angaben an?.
MiniMax M3 – der multimodale Fernlastwagen
Das in Shanghai ansässige Unternehmen MiniMax hat am 1. Juni M3 veröffentlicht. Das herausragende Merkmal ist kein Benchmark, sondern eine Architektur. M3 läuft auf MiniMax Sparse Attention (MSA), das die vollständige Verarbeitung durch ein System ersetzt, das nur die relevanten Blöcke eines langen Kontexts verarbeitet. Der praktische Vorteil: Bei 1 Million Token beträgt der Rechenaufwand pro Token nur etwa ein Zwanzigstel im Vergleich zur Vorgängergeneration, wobei das Vorfüllen angeblich 9-mal schneller und die Dekodierung mehr als 15-mal schneller erfolgt.
Das ist wichtiger, als es zunächst klingt. Modelle mit großem Kontext haben in der Regel ihre Grenzen – sie sind langsam, ressourcenintensiv und werden umso vergesslicher, je tiefer man in den Kontext vordringt. MSA ist der Ansatz von MiniMax, der darauf setzt, dass man ein wirklich nutzbares Fenster mit einer Million Tokens nutzen kann, ohne dass die Kosten oder die Latenz in die Höhe schnellen.
M3 ist zudem von Haus aus multimodal: Eingabe von Text, Bild und Video, Ausgabe als Text. Es ist das einzige Modell in diesem Trio, das Screenshots oder Bildschirmaufnahmen ohne zusätzliches Modul auswerten kann. MiniMax meldet einen SWE-Bench-Pro-Wert von 59,01 TP3T, womit es laut eigenen Angaben knapp vor GPT-5.5 und Gemini 3.1 Pro liegt, während es hinter Claude Opus 4,8 zurückbleibt. In der OpenRouter-Liste lag der Preis bei etwa $0,30 pro Million Eingabetoken und $1,20 pro Million Ausgabetoken bei Markteinführung (ein Aktionspreis; der reguläre Preis beträgt etwa das Doppelte), mit Cache-Lesezugriffen nahe $0,06.
Das Sternchen: Diese Benchmarks wurden auf der eigenen Infrastruktur von MiniMax mit dessen eigenem Agent-Framework durchgeführt. Betrachten Sie sie als Anhaltspunkt und nicht als unumstößliche Wahrheit, bis unabhängige Gremien dazu Stellung genommen haben. Und wenn Sie die gehostete API nutzen, anstatt die Gewichte selbst zu hosten, denken Sie daran, dass der Anbieter der chinesischen Rechtshoheit unterliegt – ein wichtiger Aspekt für alle, die mit regulierten Daten oder Kundendaten zu tun haben.
GLM 5.2 – das Schnäppchen unter den Codierungsplänen mit einem 1-Meter-Fenster
Das GLM 5.2 von Zhipu kam am 13. Juni auf den Markt und machte zwei kühne Versprechungen: ein ein wirklich brauchbares Kontextfenster für 1 Million Token und Unter der MIT-Lizenz stehende offene Gewichte die innerhalb einer Woche nach der Veröffentlichung verfügbar sein wird. Berichten zufolge handelt es sich um ein umfangreiches „Mixture-of-Experts“-Modell – eine häufig genannte Zahl lautet 744 Milliarden Parameter insgesamt, davon 40 Milliarden aktive –, das nach dem „Coding-First“-Ansatz entwickelt wurde und über zwei Denkmodi verfügt (High und Max, wobei letzterer für besonders knifflige Aufgaben empfohlen wird).
Was GLM 5.2 für aktive Entwickler interessant macht, ist nicht die Rangliste. Es ist die GLM-Kodierungsplan. Das Einstiegspaket kostet etwa 1 TP4T18 pro Monat für rund 400 Prompts pro Woche und reicht bis hin zu Pro (~2.000/Woche), Max (~8.000/Woche) und eine auf Nutzerlizenzen basierende Team-Stufe – und GLM 5.2 ist in allen Stufen ohne Aufpreis gegenüber 5.1 enthalten. Das ist etwa ein Zehntel dessen, was die vergleichbaren Premium-Stufen Claude Code und Claude Max kosten. Für einen Einzelentwickler oder ein kleines Unternehmen ist dieses Preis-Leistungs-Verhältnis kaum zu übertreffen.
Es lässt sich zudem nahezu reibungslos in Ihre bestehenden Tools integrieren. Die Unterstützung ab dem ersten Tag umfasst Claude Code, Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw und Kilo Code. Wenn Ihr Agent eine OpenAI- oder Anthropic-basierte API unterstützt und Sie einen benutzerdefinierten Endpunkt festlegen können, ist GLM 5.2 ein einfacher Konfigurationswechsel – richten Sie den Client auf den Z.ai-Endpunkt aus und stellen Sie das Modell auf glm-5.2.
Das Sternchen: Bei der Markteinführung veröffentlichte Zhipu nein offizielle Benchmarks. Kein SWE-Bench, kein LiveCodeBench, gar nichts. Ein paar erste Messwerte von Drittanbietern sind durchgesickert (ein Anbieter hat es an der Spitze eines logischen Benchmarks namens BridgeBench mit etwa 300 Tokens pro Sekunde gemessen), aber die Verifizierung ist derzeit wirklich dürftig. Wenn die Qualität eines Modells für die Produktion entscheidend ist, testet man es selbst, bevor man dem Marketing vertraut.
Kimi K2.7-Code – der Spezialist für den Werkzeugeinsatz, der für mehr Leistung sorgt
Der K2.7-Code von Moonshot AI wurde am 12. Juni veröffentlicht und ist der am stärksten fokussierte der drei. Es handelt sich um einen Ein „Mixture-of-Experts“-Modell mit 1 Billion Parametern und 32 Milliarden aktiven Parametern pro Token (384 Experten, 8 ausgewählte plus 1 gemeinsam genutzte, 61 Schichten, MLA-Attention), a Kontextfenster mit 256 KB, sowie einen Vision-Encoder mit 400 Millionen Parametern für Bilder und Videos. Die Gewichte sind auf Hugging Face unter einer modifizierten MIT-Lizenz verfügbar und werden im nativen INT4-Format bereitgestellt.
Das Hauptargument ist Effizienz, nicht bloße Größe. K2.7-Code verbraucht etwa 30% hat weniger “Denk”-Spielsteine als sein Vorgängermodell K2.6 und erzielte dabei bei den Programmier-Benchmarks von Moonshot höhere Werte (+21,81 TP3T bei Kimi Code Bench v2, +11,01 TP3T bei Program Bench, +31,51 TP3T bei einer mehrsprachigen Testsuite). Weniger Reasoning-Token für bessere Ergebnisse führen direkt zu geringeren Kosten bei tokenbasierten Workflows.
Aber die Zahl, die mich aufhorchen ließ, ist MCPMark-verifiziert: K2.7-Code erreicht 81,1 Punkte und übertrifft damit die 76,4 Punkte von Claude Opus 4.8 bei realen Aufgaben zum Einsatz von Tools in Umgebungen wie GitHub, Postgres, Dateisystem und Playwright. Bei agentenbasierten Aufgaben – bei denen das Modell nicht isoliert eine Funktion schreibt, sondern Tools über viele Schritte hinweg koordiniert – ist dies die Kennzahl, die vorhersagt, ob Ihr Agent die Aufgabe tatsächlich abschließt. Die API-Preise liegen bei ca. 1,95 $ für Eingaben und 4,00 $ für Ausgaben pro Million Token, wobei ein Kimi Code CLI-Tarif ab 19 $/Monat erhältlich ist.
Die Sternchen (zwei an der Zahl): Erstens handelt es sich bei allen bisher veröffentlichten K2.7-Benchmarks um Moonshots eigene, proprietäre Testsuiten – unabhängige Ergebnisse von SWE-Bench Verified, LiveCodeBench oder Terminal-Bench liegen noch nicht vor. Zweitens ist “Denken” immer eingeschaltet (mit preserve_thinking (über mehrere Durchläufe hinweg) und es gibt keinen Sofortmodus, sodass man bei jedem Aufruf die „Reasoning-Steuer“ zahlen muss, ob man will oder nicht. Und das Selbsthosting ist brutal: Das vergleichbare K2.6-Quant-Modell ist rund 340 GB groß und benötigt mehr als 350 GB an RAM und VRAM zusammen. Für fast jeden bedeutet das, die API zu mieten, statt das Modell zu besitzen.
Die direkte Bilanz, in einer Tabelle
Hier ist der Vergleich, reduziert auf das, was tatsächlich ausschlaggebend für eine Entscheidung ist. Wenn eine Zahl vom Anbieter stammt, habe ich das angegeben – denn ein Vergleich, der seine Unsicherheit verschleiert, ist nichts anderes als Marketing in Tabellenform.
| GLM 5.2 | MiniMax M3 | Kimi K2.7-Code | |
|---|---|---|---|
| Labor | Zhipu AI (Z.ai), Peking | MiniMax, Shanghai | Moonshot AI, Peking |
| Veröffentlicht | 13. Juni 2026 | 1. Juni 2026 | 12. Juni 2026 |
| Kontextfenster | 1 Million Token | 1 Million Token | 256.000 Token |
| Architektur | MoE (~744 Mrd./40 Mrd. aktiv, gemeldet) | MoE + Sparse Attention (MSA) | MoE, insgesamt 1 T / 32 Mrd. aktiv |
| Multimodal | Nein (Coding-First) | Ja – Text, Bild, Video | Ja – Bild, Video über Bild-Encoder |
| Lizenz | MIT (offene Gewichte, ca. 1 Woche nach dem Start) | Gewichte werden noch bekannt gegeben (~10 Tage) | Modifiziertes MIT (Gewichte live) |
| Stärke der Überschrift | 1 MB Datenvolumen + günstiger Mobilfunkvertrag | Multimodal mit langem Kontext + Geschwindigkeit | Werkzeuggebrauch / MCP, Token-Effizienz |
| Preissignal | ~$18/Monat-Tarif (≈1/10 der Claude-Stufen) | ~$0,30/$1,20 pro 1M (Aktionspreis) | ~$0,95/$4,00 pro 1 Mio.; $19/Monat CLI |
| Benchmark-Status | Zum Start noch nicht offiziell | Vom Anbieter betrieben (59% SWE-Bench Pro) | Hersteller-Version (81,1 MCPMark, übertrifft Opus um 4,8) |
| Der größte Fang | Nicht belegt, keine unabhängigen Bewertungen | Unter chinesischer Gerichtsbarkeit | Immer am Denken; 340 GB+ für den Eigenbetrieb |
Eine Entwickler-Rangliste, die nach praktischen Tests die Runde machte, ordnete das breitere Feld in etwa wie folgt ein: Fable 5 an der Spitze, gefolgt von Kimi K2.7, dann Opus 4.8 gleichauf mit GLM 5.2, dann GPT-5.5 und schließlich MiniMax M3 – aber das sollte man mit einer gehörigen Portion Skepsis betrachten. Es handelt sich um die Reihenfolge eines einzelnen Testers bei einer Reihe von Aufgaben in einer Woche, in der für die Hälfte dieser Modelle überhaupt keine verifizierten Zahlen vorlagen. Ihre Arbeitslast ist die einzige Rangliste, die zählt.
Wo passt “Vibe Coding” nun in dieses Bild?
An dieser Stelle lohnt es sich, einen Moment innezuhalten, da dieser Begriff oft leichtfertig verwendet wird. Vibe-Codierung ist der Arbeitsablauf, bei dem man in einfacher Sprache beschreibt, was man möchte, und das Modell den Code schreiben, ausführen und korrigieren lässt – man steuert den Prozess anhand von Absichten und einem Gespür, anstatt jede Zeile selbst einzutippen. Für viele Menschen (mich selbst eingeschlossen, bei zahlreichen Projekten) ist dies mittlerweile die Standardmethode, wie Software entwickelt wird.
Das ist längst keine Randidee mehr. Zhipu hat das technische Papier zum GLM-5 wörtlich so betitelt “Von Vibe Coding zu Agentic Engineering” — Die Labore selbst sehen den Weg so: Aus einem lockeren, dialogorientierten Prototyping entwickelt sich eine strukturierte, autonome Entwicklung, die stundenlang unbeaufsichtigt laufen kann.
Aber hier ist das, was dir niemand sagt: Welches Modell sich am besten für das „Vibe-Coding“ eignet, hängt ganz davon ab, in welcher Phase des „Vibes“ du dich gerade befindest.
- Frühe, explorative Prototypenentwicklung nach dem Motto “Mach mir einfach mal was” — wenn man schnell iteriert, Screenshots einspeist und alle zwei Minuten seine Meinung ändert — braucht man ein kostengünstiges, schnelles und fehlertolerantes Modell mit multimodaler Eingabe. MiniMax M3 hier glänzt. Dank der geringen Token-Kosten kann man ohne schlechtes Gewissen experimentieren, und die Möglichkeit, statt einer Beschreibung einfach einen Screenshot des Entwurfs einzufügen, ist eine echte Erleichterung im Arbeitsablauf.
- Programmieren mit dem Gefühl für große Codebasen — “Lies mein gesamtes Repo durch und überarbeite die Authentifizierungsschicht” — hier spielt das Kontextfenster eine entscheidende Rolle. GLM 5.2 Ein Fenster mit einer Million Token (und dieser kostengünstige Programmierplan) ermöglicht es Ihnen, das gesamte Projekt im Blick zu behalten, ohne ständig alles neu erklären zu müssen – was die größte Quelle für Reibungsverluste bei der agentischen Arbeit darstellt.
- Der ernsthafte Ansatz – auf langfristige Ziele ausgerichtete, werkzeuglastige agentische Konzepte … das Ihre Datenbank, Ihr Dateisystem und Ihren Git-Verlauf in Hunderten von Schritten durchläuft – braucht ein Modell, das mitten in der Aufgabe nicht den Faden verliert. Kimi K2.7-Code’s Genau dafür sind Tool-Usage-Scores da. Wenn es weniger darum geht, “eine Funktion zu schreiben”, sondern vielmehr darum, “meine gesamte Toolchain zu steuern, um eine Funktion zu veröffentlichen”, sind zuverlässige Tool-Aufrufe einem schöneren Code-Beispiel jedes Mal überlegen.
Die unangenehme Wahrheit: Vibe-Coding verstärkt jedes Modell, das man ihm vorgibt. Ein gutes Modell mit passendem Kontext verwandelt vage Absichten in funktionierende Software. Ein schwaches Modell verwandelt sie in einen selbstbewussten Haufen von Fehlern, die man nicht geschrieben hat und nicht versteht. Wähle das Modell für das Bühne, nicht der Hype.

Welches solltest du eigentlich verwenden?
Ohne diplomatische Umschweife. So würde ich die Entscheidung treffen.
Entscheiden Sie sich für den MiniMax M3, wenn Ihre Arbeit ist kontextintensiv und multimodal – sei es die Überprüfung umfangreicher Codebasen, das Querverweisen zwischen Dateien oder jeder andere Arbeitsablauf, bei dem Screenshots, Diagramme oder Videos Teil der Eingabe sind. Es ist auch das Modell, auf das ich zurückgreifen würde, wenn die Kosten pro Iteration die entscheidende Einschränkung darstellen, da die Sparse-Attention-Architektur dafür sorgt, dass kontextintensive Aufgaben schnell und kostengünstig bleiben. Hosten Sie die Gewichte für sensible Daten einfach selbst.
Wählen Sie GLM 5.2, wenn Du willst das beste Preis-Leistungs-Verhältnis und arbeitest mit einem umfangreichen Code-Bestand. Der Programmierplan, der etwa ein Zehntel des Preises von Premium-Claude kostet, dazu ein echtes 1-Million-Token-Fenster und reibungslose Drop-in-Unterstützung für Claude Code und Co. – all das macht ihn zur naheliegenden Standardwahl für Einzelentwickler und kleine Teams. Der Haken ist das Vertrauen – Sie vertrauen darauf, bevor unabhängige Benchmarks vorliegen. Erstellen Sie also zunächst einen Prototyp, bevor Sie einen Termin darauf festlegen.
Wählen Sie „Kimi K2.7-Code“, wenn Sie entwickeln autonome Agenten, die Tools – MCP-Server, Datenbanken, Browser, Dateisysteme – über lange Sitzungen hinweg koordinieren. Die Leistung beim Einsatz dieser Tools ist das herausragende Ergebnis in diesem gesamten Vergleich, und die Einsparungen bei der Token-Effizienz senken Ihre Betriebskosten direkt. Zahlen Sie lieber die API-Gebühr, anstatt sich mit der Anforderung von 340 GB für das Selbsthosting herumzuschlagen, und akzeptieren Sie, dass das System immer aktiv ist.
Oder – und das mache ich tatsächlich – nutze alle drei. Route nach Aufgaben. Kostengünstige multimodale Iteration zu M3, Refactorings im großen Kontext zu GLM 5.2, toolintensive Agentenläufe zu Kimi. Mit Tools wie Kilo Code, OpenCode und Claude Code wird der Wechsel des Anbieters zu einer einfachen Konfigurationsänderung und nicht zu einer Migration. In einem Markt, der sich so schnell verändert, Portabilität geht vor Loyalität. Gestalten Sie Ihren Arbeitsablauf so, dass Sie an einem Nachmittag das Modell wechseln können, und verwandeln Sie das Chaos vom Juni 2026 von einer Bedrohung in einen Vorteil.
Ein Hinweis zur Zuverlässigkeit dieser Zahlen
Eine kurze Vorab-Überprüfung, denn das erspart Ihnen Ärger. Fast alle Benchmarks in diesem Artikel stammen von den Herstellern selbst. GLM 5.2 wurde ohne jegliche Benchmarks eingeführt. Selbst die renommierten öffentlichen Testsuiten haben Probleme mit Verfälschungen – SWE-Bench Pro existiert unter anderem deshalb, weil ältere Benchmarks in die Trainingsdaten gelangt sind und die Ergebnisse aufgebläht haben.
Das bedeutet nicht, dass diese Modelle schlecht sind. Es bedeutet vielmehr, dass der einzige Maßstab, der zählt, dein eigenes Repo, deine eigenen Aufgaben und deine eigene Definition von “fertig” ist. Richte eine kleine, wiederholbare Testumgebung ein – drei oder vier echte Tickets aus deinem Backlog – und lass jedes Modell daran laufen, bevor du es einsetzt. Ein Nachmittag voller Tests wird dir mehr verraten als alle Blogbeiträge zum Starttag zusammen, einschließlich dieses hier.
Häufig gestellte Fragen
Ist GLM 5.2 tatsächlich kostenlos? Die Modelle stehen unter der MIT-Lizenz und können nach ihrer Veröffentlichung kostenlos heruntergeladen und selbst gehostet werden. Der gehostete GLM-Tarif ist kostenpflichtig und beginnt bei etwa 1 TP4T18 pro Monat – das ist jedoch nur etwa ein Zehntel der Kosten vergleichbarer Claude-Premium-Tarife, und GLM 5.2 ist in jedem Tarif ohne Aufpreis enthalten.
Was eignet sich speziell für das Vibe-Coding am besten? Es gibt keinen eindeutigen Sieger. MiniMax M3 eignet sich am besten für schnelles, kostengünstiges, multimodales Prototyping; GLM 5.2 dank seines 1-Million-Token-Fensters für Vibe-Coding in großen Codebasen; Kimi K2.7-Code für anspruchsvolle, toolintensive agentische Builds. Passen Sie das Modell an die Phase an, in der Sie sich gerade befinden.
Kann ich diese mit Claude Code verwenden? Ja. GLM 5.2 unterstützt Claude Code von Anfang an – richten Sie den Client auf den Z.ai-Endpunkt aus und stellen Sie das Modell auf glm-5.2. Kimi und MiniMax stellen beide OpenAI-/Anthropic-kompatible APIs bereit, sodass die meisten Tools zur Entwicklung agenter Systeme diese nach einem Schlüsselaustausch als benutzerdefinierten Endpunkt akzeptieren.
Welches hat das größte Kontextfenster? GLM 5.2 und MiniMax M3 bieten beide 1 Million Token. Kimi K2.7-Code bietet 256.000 – das ist zwar weniger, reicht aber für die meisten Aufgaben mit einem einzigen Repository immer noch aus.
Sind die Benchmark-Ergebnisse zuverlässig? Betrachten Sie diese Ergebnisse als Richtwerte. Stand Mitte Juni 2026 werden die meisten veröffentlichten Ergebnisse von den Anbietern auf der eigenen Infrastruktur der Labore durchgeführt, und GLM 5.2 wurde ohne offizielle Benchmarks eingeführt. Führen Sie Ihre eigene Bewertung anhand realer Aufgaben durch, bevor Sie das System in der Produktion einsetzen.
Kann ich eines dieser Programme auf einem normalen Computer ausführen? Nicht die vollen Datenmengen. Kimi K2.7-Code benötigt für den Eigenbetrieb insgesamt etwa 350 GB RAM und VRAM, und auch die anderen Modelle sind umfangreiche MoE-Modelle. Für die meisten Nutzer ist die gehostete API oder ein Managed-Provider der praktischere Weg; das Selbsthosting ist für Teams mit großem GPU-Budget oder strengen Anforderungen an die Datenresidenz gedacht.
Das Fazit
Zwei Wochen im Juni 2026 bescherten den Entwicklern drei leistungsstarke Open-Weight-Programmiermodelle, einen Markt, der mittlerweile preislich wirklich wettbewerbsfähig ist, und ein klares Signal, dass sich das Tempo nicht verlangsamt. MiniMax M3 ist Ihre multimodale, kontextübergreifende und kosteneffiziente Prototyping-Engine. GLM 5.2 ist die beste Wahl in Bezug auf das Preis-Leistungs-Verhältnis für Projekte mit großem Codeumfang, sofern man ihr schon vor Veröffentlichung der Benchmark-Ergebnisse vertrauen kann. Kimi K2.7-Code ist der Spezialist für den Einsatz von Werkzeugen bei echten agentischen Konstruktionen.
Der klügste Schachzug besteht nicht darin, sich für einen Favoriten zu entscheiden – sondern darin, einen Arbeitsablauf zu entwickeln, der flexibel genug ist, um das Modell zu nutzen, das für die jeweilige Aufgabe am besten geeignet ist, und im nächsten Monat, wenn das nächste Modell unvermeidlich auf den Markt kommt, einfach zum nächsten Modell zu wechseln. In einem so schnelllebigen Markt ist Anpassungsfähigkeit ist die Strategie.
Wenn Sie herausfinden möchten, wie sich das in Ihre eigene Infrastruktur einfügt – sei es durch die Einbindung dieser Modelle in einen Programmier-Agenten, die Integration von KI-Automatisierung in Ihr Unternehmen oder einfach nur, um eine sachliche zweite Meinung einzuholen, bevor Sie sich festlegen –, dann ist genau das die Art von Arbeit, die ich bei Graham Miranda. Kontaktieren Sie uns und lasst uns etwas schaffen, das länger Bestand hat als der Nachrichtenzyklus.
Hast du ein Modell, das deiner Meinung nach in diesen Vergleich gehört, oder eine Arbeitslast, bei der du dir nicht sicher bist, wie du sie zuweisen sollst? Schreib es in die Kommentare – ich lese sie und passe diese Anleitungen an, sobald sich die Lage ändert (was in letzter Zeit ständig der Fall ist).










