Innerhalb von zwei Wochen wurden drei massive Open-Weight-Modelle veröffentlicht. Eines stammt von einem Start-up aus Shanghai, das vor einem Jahr außerhalb von KI-Kreisen noch niemand kannte. Eines stammt aus Pekings meistbeachtetem KI-Labor. Eines stammt von dem Unternehmen, das die Chips herstellt, auf denen alle anderen ihre Modelle laufen lassen. Jedes setzt auf etwas anderes, was derzeit bei KI-Agenten am wichtigsten ist – und alle drei verdienen Ihre ernsthafte Aufmerksamkeit.
Inhaltsübersicht
- Warum dieser Vergleich gerade jetzt wichtig ist
- Die Kandidaten im Überblick
- MiniMax M3
- Kimi K2.7 Code
- Nemotron 3 Ultra
- Direktvergleiche
- Agentenleistung in der Praxis: Hermes, OpenClaw und WildClawBench
- Vibe Coding: Welches Modell eignet sich am besten zum Entwickeln von Apps?
- Preisgestaltung und Kosten-Leistungs-Analyse
- Wer sollte welches Modell verwenden?
- Das offensichtliche Tabuthema: Datenschutz
- Endgültiges Urteil
Warum dieser Vergleich gerade jetzt wichtig ist
Wenn Sie den Bereich der Open-Weight-KI in den letzten sechs Monaten verfolgt haben, wissen Sie bereits, dass sich die Entwicklung schneller vollzieht, als irgendjemand vorhergesagt hatte. Die gleichen Funktionen, für die vor zwölf Monaten noch ein Claude-Opus-Abonnement mit $15/M-Token erforderlich war, sind nun als herunterladbare Gewichte verfügbar, die Sie auf Ihren eigenen Servern ausführen können.
Doch der Juni 2026 war etwas ganz anderes. Innerhalb von zwölf Tagen erschienen drei bedeutende Veröffentlichungen im Open-Weight-Bereich im Abstand von nur wenigen Tagen: MiniMax M3 am 1. Juni, Nemotron 3 Ultra am 4. Juni und – buchstäblich gestern – Kimi K2.7 Code am 12. Juni. Zusammen genommen stellen sie wohl die bedeutendste zweiwöchige Phase in der Geschichte der Open-Source-KI dar, und jede von ihnen setzt auf eine andere architektonische und philosophische Herangehensweise hinsichtlich der Anforderungen an die nächste Generation von KI-Agenten.
Dies ist nicht nur eine Zusammenstellung von Benchmark-Ergebnissen. Wir werden uns ansehen, wie sich diese Modelle in der Praxis tatsächlich verhalten: wie sie sich in den Agent-Frameworks schlagen, die Entwickler tatsächlich nutzen – OpenClaw, Hermes Agent und der immer beliebter werdende VIBE Coding-Workflow – und wo jedes Modell Ihnen Geld oder Zeit spart, im Gegensatz zu den Stellen, an denen es Sie still und leise im Stich lässt.
Fangen wir damit an, wer diese Models eigentlich sind.

Die Kandidaten im Überblick
Bevor wir ins Detail gehen, hier eine kurze Zusammenfassung in 30 Sekunden, was die einzelnen Modelle sind und warum es sie gibt:
MiniMax M3 Das in Shanghai ansässige Unternehmen MiniMax will mit diesem Modell das erste Open-Weight-Modell auf den Markt bringen, das drei Dinge wirklich gleichzeitig vereint: Programmierleistung auf Spitzenniveau, ein Kontextfenster von einer Million Token und native Multimodalität – einschließlich Bild-, Video- und Desktop-Steuerung. Es wird unter einer Open-Weights-Lizenz angeboten, wobei die Abonnementpreise bei $20/Monat beginnen.
Kimi K2.7 Code Es handelt sich um die fünfte große Veröffentlichung von Moonshot AI (Peking) innerhalb eines Jahres – ein zielgerichtetes Programmier-Upgrade des ohnehin schon beeindruckenden K2.6, das den Token-Verbrauch für Schlussfolgerungen um etwa 30% senkt und gleichzeitig die wichtigsten Agenten-Benchmarks deutlich verbessert. Es wurde gestern auf Hugging Face unter einer modifizierten MIT-Lizenz veröffentlicht und kostet 1,95 bis 4,00 US-Dollar pro Million Token.
Nemotron 3 Ultra ist NVIDIAs Antwort auf die Frage: Was wäre, wenn der Chiphersteller auch das Modell entwickeln würde? Mit 550 Milliarden Parametern ist es das leistungsfähigste Open-Weight-Modell, das jemals aus einem US-amerikanischen Labor hervorgegangen ist, und erreicht 47,7 Punkte auf dem Artificial Analysis Intelligence Index – ein Ergebnis, das es auf eine Stufe mit Claude Opus 4.6 und Kimi K2.6 stellt. Es wurde am 4. Juni unter der OpenMDW-1.1-Lizenz der Linux Foundation veröffentlicht.
Drei Modelle. Drei ganz unterschiedliche Entstehungsgeschichten. Alle sind es wert, ausprobiert zu werden.
MiniMax M3
Wer hat es gemacht und warum?
Außerhalb von KI-Kreisen ist MiniMax den meisten Menschen kein Begriff, doch innerhalb dieser Kreise ist das in Shanghai ansässige Unternehmen immer schwerer zu übersehen. Im Januar 2026 ging das Unternehmen an die Hongkonger Börse, und seit fast einem Jahr arbeitet es intensiv an der Entwicklung von M3. Das Versprechen ist so ehrgeizig, dass es fast schon aggressiv wirkt: M3 wird als erstes Open-Weight-Modell positioniert, das Frontier-Codierung, ein Kontextfenster mit einer Million Token und native Multimodalität in einem einzigen System vereint – und das Unternehmen hat es zu einem Preis auf den Markt gebracht, der die Preise für Closed-Models teuer erscheinen lässt.
Die Architektur: MiniMax Sparse Attention
Das wichtigste technische Thema ist hier die MiniMax Sparse Attention (MSA) Architektur. Die Standard-Transformer-Aufmerksamkeit ist quadratisch – jedes Token achtet auf jedes andere Token, was bedeutet, dass sich die Rechenkosten bei einer Verdopplung des Kontexts in etwa vervierfachen. Bei einer Million Token wird diese Rechnung brutal.
MiniMax hat den M3 auf Basis seines neuen MSA-Designs entwickelt, das den Rechenaufwand pro Token bei einem Kontext von 1 Million auf etwa ein Zwanzigstel der Vorgängergeneration senkt, bei einem mehr als neunmal schnelleren Prefill und einer mehr als 15-mal schnelleren Dekodierung. Das ist keine marginale Verbesserung. Das ist der Unterschied zwischen einem Kontextfenster mit einer Million Token, das nur eine theoretische Spezifikation ist, und einem, das man tatsächlich in die Produktion bringen kann, ohne dass die Kosten für GPUs in die Höhe schnellen.
Das Modell basiert auf MiniMax Sparse Attention (MSA), das die vollständige Aufmerksamkeit durch eine KV-Block-Auswahl ersetzt, um den Rechenaufwand pro Token bei langem Kontext zu reduzieren. Dies führt zu einer deutlich schnelleren Vorabfüllung und Dekodierung, während die Qualität bei den meisten Aufgaben erhalten bleibt.
Interessanterweise hatte MiniMax die „Sparse Attention“ in seiner M2-Generation abgeschafft und sie speziell für die M3 wieder eingeführt – was darauf hindeutet, dass die Architektur zwar funktionierte, aber mehr Trainingsdaten oder Anpassungsarbeiten nach dem Training erforderlich waren, um sie wettbewerbsfähig zu machen. Die M3 lässt vermuten, dass sie das Problem gelöst haben.
Was M3 tatsächlich auszeichnet
MiniMax hat M3 vorgestellt, das modernste Codierungs- und Agenten-Leistung mit einem Kontextfenster von 1 Million Token und nativer Multimodalität zu einem Bruchteil der Kosten führender proprietärer Modelle vereint.
Der Aspekt der Multimodalität verdient besondere Beachtung. M3 akzeptiert nicht nur Bilder – es verarbeitet Bilder und Videos und kann einen Desktop-Computer nativ steuern. Für Vibe-Coding-Workflows, bei denen man einen Screenshot einer Benutzeroberfläche einreicht und sagt: “Erstelle mir das”, ist das in einer Weise wirklich nützlich, wie es ein rein textbasiertes Coding-Modell nicht ist.
MiniMax-M3 ist das innovative multimodale Kodierungs- und Agentenmodell von MiniMax, das auf der MSA-Architektur basiert. Es unterstützt ein Kontextfenster von bis zu 1 Million Token und akzeptiert Bild- und Videoeingaben. Das Modell ist für die Codegenerierung, agentische Arbeitsabläufe, den Einsatz von Werkzeugen, das Verständnis langer Kontexte und mehrstufiges Schlussfolgern ausgelegt.
Der VIBE-Benchmark: Der von MiniMax selbst entwickelte Standard
Eines ist besonders erwähnenswert: MiniMax hat nicht nur ein Modell auf den Markt gebracht – sie haben einen neuen Maßstab gesetzt. Der VIBE (Visueller und interaktiver Benchmark für die Ausführung) Das Framework ist MiniMax’ Antwort auf eine Lücke, die sie in bestehenden Bewertungsframeworks sehen. Im Gegensatz zu traditionellen Benchmarks wie SWE-bench und Terminal-bench, die sich auf die statische Korrektheit des Codes oder die Erledigung von Aufgaben auf Kommandozeilenebene konzentrieren, bewertet VIBE automatisch die Interaktionslogik und die visuelle Darstellung der generierten Anwendungen in einer realen Ausführungsumgebung und liefert so eine realitätsnähere Einschätzung der tatsächlichen Benutzererfahrung.
Es ist sicher ein eigennütziger Maßstab – aber die zugrunde liegende Kritik ist nicht falsch. SWE-bench sagt Ihnen, ob ein Modell GitHub-Issues lösen kann; es sagt Ihnen nicht, ob ein Modell aus einem Screenshot eine lauffähige, visuell stimmige Web-App erstellen kann. M3 schneidet hier gut ab, was angesichts seiner nativen multimodalen Architektur Sinn ergibt.
MiniMax M3-Benchmarks
MiniMax M3 erreicht 59,01 TP3T bei SWE-Bench Pro, 66,01 TP3T bei Terminal-Bench 2.1, 34,81 TP3T bei SWE-fficiency und 83,5 bei BrowseComp. Insbesondere der BrowseComp-Wert ist bemerkenswert – mit 83,5 liegt er bei autonomen Web-Browsing-Aufgaben vor GPT-5.5, und genau diese Fähigkeit wünscht man sich von einem Agenten, der rechercheintensive Programmierarbeiten ausführt.
Der MiniMax M3 erreicht im SWE-Bench Pro 59,01 TP3T, übertrifft damit GPT-5.5 und Gemini 3.1 Pro und nähert sich dem Wert von Claude Opus 4,7. Außerdem erreicht es 66,01 TP3T bei Terminal Bench 2.1, 34,81 TP3T bei SWE-fficiency, 28,81 TP3T bei KernelBench Hard und 74,21 TP3T bei MCP Atlas.
Ein Hinweis, der erwähnenswert ist: Als Vergleichsgrundlage verwendet MiniMax in seinen eigenen Unterlagen Claude Opus 4.7 und nicht die kürzlich veröffentlichte Version Opus 4.8. Diese Darstellung ist zwar nicht falsch, doch Entwickler, die M3 anhand der aktuellen Benchmark-Spitzenwerte bewerten, sollten die Zahlen von Opus 4.8 heranziehen, die M3 weiter von der Spitze entfernt zeigen, als die Ankündigung zum Start vermuten lässt.
Dennoch – 591 TP3T auf SWE-Bench Pro bei einem Modell mit offenem Gewicht und einem Kontext von einer Million Token ist bemerkenswert, und die unabhängigen Daten bestätigen weitgehend, dass die vom Unternehmen gemeldeten Zahlen in etwa zutreffend sind.
Preise
Bei der Markteinführung wurde MiniMax M3 auf OpenRouter mit $0,60 pro Million Eingabetoken und $2,40 pro Million Ausgabetoken gelistet, wobei ein vorübergehender Aktionsrabatt von 50% den Preis auf etwa $0,30 für Eingabe- und $1,20 für Ausgabetoken pro Million senkte – ein Bruchteil dessen, was bei Pioniermodellen wie Claude Opus und GPT-5.5 üblich ist.
Zum Vergleich: Claude Opus 4.8 kostet $5/$25 pro Million Token. M3 kostet im Aktionspreis etwa ein Zwanzigstel davon. Selbst zum Standardpreis liegt der Preis bei nur einem Zehntel. Die Kostenargumente sind ebenso überzeugend wie die Leistungsargumente.
Kimi K2.7 Code
Wer hat es gemacht und warum?
Moonshot AI startete gestern – am 12. Juni 2026 – mit der fünften großen Veröffentlichung innerhalb eines Jahres für das in Peking ansässige Unternehmen, und es hat seine Modelle auf drei Säulen ausgerichtet: agentische Fähigkeiten, erweiterte Kontextverarbeitung und multimodale Eingaben. Die Kimi-K2-Familie hat sich zu einer der meistbeachteten Open-Weight-Modellserien des Jahres 2026 entwickelt, und K2.7 Code ist die bislang leistungsstärkste Version dieser Reihe.
Die Namensänderung ist bezeichnend. Es ist das erste Mal, dass Moonshot den Begriff “Code” ausdrücklich in den Modellnamen aufgenommen hat. Das Unternehmen gibt nicht vor, dass K2.7 ein Allzweckmodell ist – es ist auf technische Anwendungen zugeschnitten, nicht auf allgemeine Chats, und das soll man auch wissen.
Architektur: Dieselbe Grundlage mit einer Billion Parametern, nur noch genauer abgestimmt
Kimi K2.7 Code ist ein „Mixture-of-Experts“-Modell mit 1 Billion Parametern, 32 Milliarden aktiven Parametern pro Token und 384 Experten. Es verfügt über ein Kontextfenster von 262.144 Token, das von K2.6 übernommen wurde, sowie über eine automatische Kontextkomprimierung für lang andauernde Sitzungen.
Die Architektur selbst hat sich gegenüber K2.6 nicht wesentlich verändert – es handelt sich nach wie vor um das 1T-MoE-Framework, das Kimi K2.6 Anfang dieses Jahres zum bestplatzierten Open-Weight-Modell im Artificial Analysis Intelligence Index gemacht hat. K2.7 Code steht für eine gezielte Verfeinerung: dasselbe Chassis, dessen Motor speziell für agentische Codierungs-Workflows neu abgestimmt wurde.
Kimi K2.7 Code ist das auf Programmierung ausgerichtete agentische Modell von Moonshot AI, das auf Kimi K2.6 aufbaut. Es verbessert die Bewältigung von Programmieraufgaben mit langfristigem Horizont in realistischen Szenarien, die Befolgung von Anweisungen sowie die Token-Effizienz und reduziert gleichzeitig den Verbrauch an „Thinking-Tokens“ im Vergleich zu Kimi K2.6 um etwa 301 TP3T.
Diese Reduzierung der ’Thinking Tokens“ um 30% ist keine Kleinigkeit. In einer lang andauernden Coding-Agent-Sitzung, in der das Modell Hunderte von Durchläufen durchläuft, bedeuten weniger Thinking-Token geringere Kosten und eine schnellere Rechenzeit. Wenn Sie beispielsweise über Nacht eine Refaktorisierung des gesamten Repositorys durchführen, summieren sich die Effizienzgewinne von K2.7 gegenüber K2.6 erheblich.
Was K2.7 tatsächlich verbessert
Die Ankündigung von Moonshot beginnt mit drei Zahlen: +21,81 TP3T gegenüber K2.6 auf dem Kimi Code Bench v2, +11,01 TP3T auf dem Program Bench und +31,51 TP3T auf dem MLS Bench Lite, zusammen mit der Behauptung, dass der Verbrauch an Reasoning-Token im Vergleich zu K2.6 um etwa 301 TP3T geringer ist.
Es handelt sich hierbei um eigene Messwerte, die mit den hauseigenen Benchmark-Suiten von Moonshot ermittelt wurden. Fairerweise muss man anmerken, dass es zum 13. Juni 2026 – einen Tag nach der Veröffentlichung – noch keine unabhängigen Zahlen von Drittanbietern für den K2.7 in den gängigen öffentlichen Suiten gibt – SWE-bench Verified, SWE-bench Pro, Terminal-Bench, LiveCodeBench, GPQA Diamond, AIME oder MMLU-Pro. Diese Verifizierung wird in den kommenden Tagen erfolgen. Basierend auf der Entwicklung von K2.6 (das durchaus wettbewerbsfähige unabhängige Benchmark-Ergebnisse lieferte) sind die internen Zahlen wahrscheinlich in der richtigen Richtung.
Das bislang herausragendste Ergebnis im Bereich der unabhängigen Tests: K2.7-Code erzielte 81,1 Punkte im MCP Mark Verified und übertraf damit die 76,41 TP3T von Claude Opus 4.8. Diese Testsuite prüft den korrekten Tool-Aufruf über das Model Context Protocol – CI-Prüfungen, Ticket-Updates und Dateibearbeitungen in einem Durchlauf. Die Tatsache, dass ein Open-Weight-Modell Opus 4.8 bei der MCP-Tool-Nutzung nun übertrifft, ist nach jedem vernünftigen Maßstab ein Wendepunkt für Open-Source-KI.
Die Geschichte der Kimi Code-Plattform
Ein Aspekt, der bei Modellvergleichen oft zu kurz kommt: K2.7-Code wird innerhalb von Kimi Code – dem Open-Source-Terminal-Agenten von Moonshot – gestartet, wobei die Mitgliedschaftstarife ab 1 TP pro Monat beginnen. Moonshot konkurriert hier explizit auf der gesamten Ebene: Modell, CLI und Abonnement-Modell. Dies ist ein Vergleich zwischen Cursor und Kimi, und es ist wichtig für Teams, die ihren KI-Codierungs-Workflow ganzheitlich bewerten und nicht nur das reine Modell.
Die Kimi Code CLI ist auf jeden Fall einen Versuch wert. Sie ist Shell-kompatibel, unterstützt die Integration mit dem MCP-Server, und dank der Open-Source-Lizenz sind Sie nicht an die Moonshot-API gebunden, falls Sie die Lösung selbst hosten möchten.
Multimodale Funktionen
Genau wie M3 ist auch K2.7 Code nicht auf Text beschränkt. Entwickler können Screenshots, Diagramme, Produktentwürfe oder sogar Videos hochladen und das Modell bitten, auf dieser Grundlage Code zu generieren. Das macht es nützlich für die Frontend-Entwicklung, die Fehlerbehebung bei visuellen Problemen und das Reverse Engineering von Benutzeroberflächen. Die Bildverarbeitungsfähigkeit ist real und für UI-zentrierte Programmieraufgaben wirklich nützlich, auch wenn der multimodale Anwendungsbereich von K2.7 etwas enger ist als der von M3 (der auch die Nutzung auf Desktop-Computern umfasst).
Preise
Die Preise für den Kimi K2.7-Code betragen über die Moonshot-API 1,95 TP4T pro Million Eingabetoken, 4,00 TP4T pro Million Ausgabetoken und 0,19 TP4T pro Million Cache-Treffer. Kostenlose Gewichte sind auf Hugging Face für das Selbsthosting verfügbar.
Für ein Modell mit einer Billion Parametern ist der Eingabewert $0.95 sehr wettbewerbsfähig. Der Ausgabepreis ($4,00) ist in absoluten Zahlen höher als bei M3, aber die Reduzierung der Reasoning-Token um 30% bei K2.7 bedeutet, dass die tatsächlichen Kosten pro abgeschlossener Aufgabe niedriger sein können, als die reine Token-Zahl vermuten lässt. Die Preisgestaltung sollte sich an Ihrer spezifischen Arbeitslast orientieren und nicht nur am Grundpreis.
Nemotron 3 Ultra
Wer hat es gemacht und warum?
Was die meisten Berichte über Nemotron 3 Ultra außer Acht lassen, ist Folgendes: NVIDIA entwickelt hier ein Pioniermodell. Kein Chiphersteller, der sich nebenbei mit KI beschäftigt, kein Forschungslabor, das an ein Infrastrukturunternehmen angegliedert ist – NVIDIA, dessen Umsatz von den KI-Trainingsläufen aller anderen abhängt, hat beschlossen, ein wettbewerbsfähiges Pioniermodell unter einer vollständig offenen Lizenz zu entwickeln und zu veröffentlichen. Das ist ein aussagekräftiges Statement darüber, wohin sich der Markt entwickelt.
Am 4. Juni 2026 veröffentlichte NVIDIA „Nemotron 3 Ultra“, ein vollständig offenes Modell mit 550 Milliarden Parametern, das speziell für lang laufende Agenten entwickelt wurde.
Am 4. Juni 2026 stellte NVIDIA Nemotron 3 Ultra stillschweigend auf Hugging Face bereit, zwei Tage nachdem Jensen Huang es auf der Computex-Bühne in Taipeh angekündigt hatte. 550 Milliarden Parameter. 55 Milliarden aktive Parameter pro Vorwärtsdurchlauf. Über 300 Token pro Sekunde. Der höchste Intelligence-Index-Wert, den je ein in den USA entwickeltes Open-Weight-Modell erreicht hat.
Architektur: Der hybride Mamba-Transformer, der alles verändert
An dieser Stelle wird Nemotron 3 Ultra technisch interessant. Während M3 „Sparse Attention“ nutzt, um lange Kontexte zu verarbeiten, und K2.7 auf dem bewährten MoE-Transformer-Weg bleibt, schlägt Nemotron Ultra einen völlig anderen Weg ein.
NVIDIA hat Nemotron 3 Ultra als „Mixture-of-Experts“-Modell mit 550 Milliarden Parametern und 55 Milliarden aktiven Parametern veröffentlicht, das für die Steuerung komplexer, lang andauernder Agenten-Workflows optimiert ist. Zu den architektonischen Innovationen gehören hybride Mamba-Transformer-Schichten für eine effiziente Verarbeitung langer Kontexte, NVFP4-Quantisierung für den architekturunabhängigen GPU-Einsatz mit bis zu 5-mal höherem Durchsatz, LatentMoE für das Expert-Routing sowie Multi-Token-Vorhersage für eine verbesserte Generierungsgeschwindigkeit bei Multi-Turn-Aufgaben.
Der hybride Mamba-Transformer-Ansatz ist von großer Bedeutung. Mamba-Schichten bewältigen sequenzielle Abhängigkeiten bei langen Kontexten effizienter als herkömmliche Attention-Mechanismen – sie skalieren linear statt quadratisch mit der Sequenzlänge. Durch die Kombination mit Transformer-Attention für Aufgaben, die davon profitieren, und die Einbettung des Ganzen in eine MoE-Architektur erreicht NVIDIA eine ungewöhnliche Kombination: hohe Intelligenz, hoher Durchsatz und relativ niedrige Kosten pro Token.
Die NVFP4-Quantisierung ist ein weiteres Alleinstellungsmerkmal. Auf Blackwell-GPUs (Nachfolgemodelle der H100) läuft sie mit nativer FP4-Arithmetik. Auf Hopper (H100) greift sie auf W4A16 zurück. In beiden Fällen erreicht Nemotron 3 Ultra einen 5,9-mal höheren Inferenzdurchsatz im Vergleich zu GLM-5.1, ist 4,8-mal schneller als Kimi K2.6 und 1,6-mal schneller als Qwen-3.5 bei Einstellungen von 8K Eingabe- und 64K Ausgabetoken, während es bei einer Vielzahl von agentischen und logischen Benchmarks eine vergleichbare Genauigkeit erreicht.
Lesen Sie das noch einmal: 4,8-mal schneller als Kimi K2.6 bei vergleichbarer Genauigkeit. Für Teams, die Produktionsagenten einsetzen, wirkt sich dieser Durchsatzunterschied direkt auf die Kosten pro Aufgabe aus.
Benchmarks und Intelligence-Index
Nemotron 3 Ultra erreicht im Artificial Analysis Intelligence Index einen Wert von 47,7 – und liegt damit deutlich vor den nächststärksten US-Modellen mit offener Gewichtung: Gemma 4 31B mit 39,2, Nemotron 3 Super mit 36,0 und gpt-oss-120b mit 33,3.
Der ehrliche Vorbehalt steht genau dort im selben Absatz: Es liegt immer noch hinter der von China angeführten Spitze im Open-Weight-Bereich zurück (Kimi K2.6 mit 53,9). Dies ist eine US-Premiere, und zwar eine gute – aber Nemotron Ultra ist derzeit nicht das beste Open-Weight-Modell der Welt. Es ist das beste amerikanische Modell, und zwar mit großem Abstand.
Bei agentischen Aufgaben erreicht Nemotron 3 Ultra 90,0 Punkte auf PinchBench und 56,0 Punkte auf ProfBench Search. Das NVIDIA-Team hat beide als „Held-out“-Generalisierungstests reserviert und beim endgültigen Modell nur einmal bewertet. Es erzielt 71,9 Punkte bei SWE-Bench Verified und 56,4 bei Terminal Bench 2.1. Im Bereich des logischen Denkens erreicht es 570,0 Punkte bei IOI 2025, was NVIDIA als „Top-3-Human-Level“-Wettbewerb im Programmieren einstuft.
Der SWE-Bench-Verified-Wert von 71,91 TP3T ist besonders konkurrenzfähig. Damit liegt er zwar hinter Claude Fable 5 und GPT-5.5 an der Grenze der geschlossenen Modelle zurück, übertrifft jedoch die meisten Alternativen mit offenem Gewicht – und, was besonders wichtig ist, er wird über mehrere Agenten-Frameworks hinweg konsistent gemessen.
Bei der AA-Allwissenheit erzielt es mit 78,7 den höchsten Wert für „keine Halluzinationen“ im Datensatz, was auf eine geringere Neigung hindeutet, bei Unsicherheit zu antworten. Der lange Kontext bewährt sich auch im großen Maßstab – das Modell erreicht bei 1 Million Tokens einen RULER-Wert von 94,7.
Diese „Halluzinationszahl“ ist besonders hervorzuheben. Bei den Arbeitsabläufen von Produktionsagenten ist ein Modell, das erkennt, wann es etwas nicht weiß, oft wertvoller als eines, das bei Benchmarks zwar ein paar Prozentpunkte mehr erzielt, sich aber in Grenzfällen selbstbewusst in die Irre führt.
Die Geschichte der offenen Trainingsdaten
NVIDIA hat – insgesamt über die drei Nemotron-3-Einführungen hinweg – 50 Millionen überwachte Feinabstimmungsbeispiele, 2 Millionen Aufgaben für das bestärkende Lernen und 55 RL-Umgebungen veröffentlicht. Ein solches Maß an Offenheit ist für eine Modellfamilie der Spitzenklasse ungewöhnlich, und genau darauf hat die KI-Forschungsgemeinschaft am stärksten reagiert.
Wenn Sie Nemotron Ultra feinabstimmen oder erweitern möchten, tun Sie dies nicht im Dunkeln. Die Trainingsrezepte, Daten und Bewertungsumgebungen sind alle öffentlich zugänglich. Für Unternehmensteams, die domänenspezifische Leistung benötigen und über die Fähigkeit zur Feinabstimmung verfügen, ist dies ein bedeutender Vorteil, den derzeit weder M3 noch K2.7 Code bieten.
Preise
DeepInfra verfügt bereits über einen aktiven Endpunkt in der Vorabversion mit Preisen von 1 TP4T0,37/M für den Input und 1 TP4T1,08/M für den Output – das liegt über dem Medianwert für diese Größenklasse. OpenRouter hat ihn indexiert und macht ihn zugänglich. Die Unternehmensintegration ist über NVIDIA NIM-Mikroservices unter build.nvidia.com verfügbar.
Nemotron 3 Ultra läuft bei einigen Anbietern mit 1 TP4T0,50 pro Million Eingabetoken und 1 TP4T2,50 im Output und bietet damit ein hervorragendes Preis-Leistungs-Verhältnis für ein Modell dieser Intelligenzklasse.
Direktvergleiche
Hier finden Sie eine Gegenüberstellung der wichtigsten Kennzahlen der drei Modelle sowie Erläuterungen dazu, was die einzelnen Kennzahlen konkret messen:
SWE-Bench Pro (Tatsächliche Lösung des GitHub-Problems)
SWE-Bench Pro testet die Fähigkeit, tatsächliche GitHub-Issues zu beheben, die nach dem Trainingsstichtag eines Modells gemeldet wurden – wodurch das Risiko einer Datenverfälschung im Vergleich zu früheren SWE-Bench-Varianten verringert wird. Es ist das, was der Frage “Kann dieses Modell echte Fehler in echten Codebasen beheben?” bisher am nächsten kommt, was die Benchmark-Community bisher hervorgebracht hat.
- MiniMax M3: 59,01 TP3T (vom Unternehmen gemeldet)
- Nemotron 3 Ultra: ~56–71,91 TP3T (von SWE-Bench verifiziert); die Werte von SWE-Bench Pro stehen noch unter dem Vorbehalt einer unabhängigen Bestätigung
- Kimi K2.7 Code: K2.6 erzielte 58,61 TP3T; die internen Ergebnisse von K2.7 lassen auf ähnliche oder höhere Werte schließen – unabhängige Bewertung steht noch aus
Terminal-Bench 2.1 (Mehrstufige CLI-Aufgaben)
Terminal-Bench testet, was Agenten in der Produktion tatsächlich leisten: mehrstufige Shell-Aufgaben in Live-Terminalumgebungen. Dies kommt eher der Frage “Kann es eine CI-Pipeline ausführen?” nahe als der Frage “Kann es Code automatisch vervollständigen?”.”
- MiniMax M3: 66.0%
- Nemotron 3 Ultra: 56.4%
- Kimi K2.7 Code: K2.6 führte mit 67,21 TP3T; für K2.7 wird eine Verbesserung erwartet
Auf Terminal-Bench liegen M3 und K2.7 auf einem ähnlichen Niveau und liegen beide vor Nemotron Ultra. Das ist nachvollziehbar – M3 und die Kimi-Familie wurden speziell für Codierungsaufgaben mit langem Zeithorizont optimiert, während die Designprioritäten von Nemotron Ultra breiter gefasst sind.
Verwendung des MCP-Tools (Model Context Protocol)
Die Nutzung von MCP-Tools wird zunehmend zum entscheidenden Maßstab für den tatsächlichen Einsatz von Agenten. Bei der korrekten Aufrufung von Tools geht es nicht nur um Benchmark-Ergebnisse – es geht darum, ob Ihr Agent tatsächlich die richtigen Aktionen ausführt, ohne dabei Funktionsnamen oder Parameter falsch zu interpretieren.
- Kimi K2.7 Code: 81,1 auf MCP Mark Verified (übertrifft die 76,4 von Claude Opus 4.8)
- MiniMax M3: 74,2 im MCP Atlas (Angaben des Unternehmens)
- Nemotron 3 Ultra: Starke BFCL-V4-Ergebnisse (Funktionsaufrufe), die genauen MCP-Mark-Zahlen wurden noch nicht veröffentlicht
K2.7 geht in dieser Kategorie klar als Sieger hervor. Die agentische Feinabstimmung von Moonshot hat sich gezielt auf Muster beim Aufruf von Tools konzentriert, und das macht sich bemerkbar.
Index für künstliche Intelligenz in der Analyse (Gesamtwert)
Dieser aus zehn Bewertungen zusammengesetzte Index umfasst logisches Denken, Wissen, Mathematik und Programmieren – im Wesentlichen einen gewichteten Durchschnitt der allgemeinen Intelligenz eines Modells.
- Kimi K2.6 / K2.7-Familie: 53–54 (Daten für K2.7 stehen noch aus)
- Nemotron 3 Ultra: 47.7
- MiniMax M3: Noch nicht bewertet (BenchLM listet M3 auf der vorläufigen Rangliste mit 76/100 auf, Platz #29 von 122)
Geschwindigkeit (Token pro Sekunde)
Hier zeigt sich, dass die Architektur von Nemotron Ultra ein ganz anderes Bild zeichnet:
- Nemotron 3 Ultra: Über 300 Token pro Sekunde auf GB200, 5,9-mal schneller als GLM-5.1, 4,8-mal schneller als Kimi K2.6
- MiniMax M3: ~100 Token/Sekunde bei 1 Mio. Zeichen
- Kimi K2.7 Code: Vergleichbar mit K2.6 (Durchsatzsteigerungen durch Token-Effizienz statt durch reine Geschwindigkeit)
Bei Produktionsumgebungen mit hohem Durchsatz, in denen viele Agenten parallel ausgeführt werden, ist der Durchsatzvorteil von Nemotron Ultra erheblich.
Agentenleistung in der Praxis: Hermes, OpenClaw und WildClawBench
Benchmarks sind eine Sache. Wie sich diese Modelle in den Agenten-Frameworks, die Entwickler heute einsetzen, tatsächlich verhalten, ist eine andere.
OpenClaw: Das Agent-Framework, das die Welt erobert
Falls Sie noch nichts von OpenClaw gehört haben, wird sich das bald ändern. In nur zwei Monaten hat OpenClaw 247.000 GitHub-Stars gesammelt und sich zu einer KI-Agentenplattform entwickelt, die von Unternehmen im Silicon Valley und in China begeistert angenommen wird. Sie läuft lokal, ist modellunabhängig und lässt sich in Messaging-Apps integrieren – drei Eigenschaften, die sie deutlich von SaaS-basierten KI-Assistenten unterscheiden.
OpenClaw ist von Grund auf modellunabhängig konzipiert, was bedeutet, dass die Qualität Ihrer Erfahrung fast ausschließlich davon abhängt, welches LLM Sie im Backend einsetzen. Hier kommt der Modellauswahl eine entscheidende Rolle zu.
Die PinchBench OpenClaw-Benchmark umfasst 23 Aufgaben aus den Bereichen Codeausführung, Inhaltserstellung, Recherche und Systemtools. Der Test umfasst 23 Aufgaben aus den Bereichen Codeausführung, Inhaltserstellung und Systemtools – er ist quelloffen und reproduzierbar und nutzt Daten aus den OpenClaw-Agententests von PinchBench.
Zur OpenClaw-Bewertung von PinchBench:
- Nemotron 3 Ultra: 90% bei PinchBench Agent Productivity (gleichauf mit Kimi K2.6 – laut Benchmark das beste chinesische Open-Source-Modell bei der Aufgabenbearbeitung)
- Kimi K2.7 Code: Es wird erwartet, dass das Ergebnis an das starke Ergebnis von K2.6 anknüpfen oder dieses sogar übertreffen wird
- MiniMax M3: Insgesamt starke Agentik-Werte; besonders hervorzuheben ist der fünffache Kostenvorteil gegenüber dem Kimi K2.6 in den Praxistests von Composio
Ein Composio-Praxisvergleich zwischen M3 und K2.6 (dem Vorgänger von K2.7) ergab etwas Interessantes: M3 benötigte bei 25 Composio-Aufgaben $0,81, während Kimi $4,08 benötigte – also etwa fünfmal so viel. M3 hatte bei der Programmierung komplexer Terminals einen deutlichen Vorsprung; bei der alltäglichen Orchestrierung von SaaS-Tools waren beide praktisch gleichauf.
Diese Kostendifferenz ist nicht nur eine wirtschaftliche Frage – sie bedeutet, dass man mit demselben Budget fünfmal so viele Agenten-Iterationen durchführen kann, was bei explorationsintensiven Programmieraufgaben von Bedeutung ist, bei denen die Iterationsgeschwindigkeit den Engpass darstellt.
Hermes Agent: Das Framework, das niemanden bevorzugt
WildClawBench, im Mai 2026 von InternLM veröffentlicht, ist eine der derzeit strengsten unabhängigen Bewertungen von Agenten. Der Benchmark testet, worauf es wirklich ankommt: Kann ein KI-Agent echte Arbeit von Anfang bis Ende erledigen, ohne dass man ihm an die Hand nehmen muss? Er führt dieselbe Suite aus 60 Aufgaben unter vier verschiedenen Agent-Harnesses durch – OpenClaw, Claude Code, Codex CLI und Hermes Agent – und trennt dabei die Modellfähigkeiten vom Harness-Gerüst.
Das Hermes-Framework ist insbesondere deshalb interessant, weil es entwickelt wurde, um Modelle unabhängig von den Agent-Frameworks der einzelnen Anbieter zu testen. Es liefert einen unverfälschten Hinweis auf die Qualität des zugrunde liegenden Modells.
Nemotron 3 Ultra erzielt bei den SWEBench Verified-Ergebnissen zwischen 65% und 70,4% für Pi, OpenHands, Hermes, OpenCode und Mini SWE Agent – eine gleichbleibende Leistung, unabhängig davon, welches Framework Sie einsetzen.
Diese Konsistenz über verschiedene Testumgebungen hinweg ist ein aussagekräftiges Qualitätsmerkmal. Viele Modelle, die in ihrem eigenen CLI gut abschneiden, weisen erhebliche Einbußen auf, wenn man sie in ein anderes Agenten-Framework einbindet. Die Architektur von Nemotron Ultra scheint gegenüber Framework-Änderungen robust zu sein – wahrscheinlich, weil NVIDIA bewusst über mehrere Agenten-Testumgebungen pro Aufgabentyp hinweg trainiert hat, anstatt sich auf eine einzige zu optimieren.
Was die Versionen M3 und K2.7 betrifft, so tauchen in der Community nach wie vor WildClawBench-spezifische Zahlen auf; doch die traditionelle Stärke der K2-Familie bei agentenbasierten Bewertungen und die MCP-Verbesserungen von K2.7 lassen auf überzeugende Ergebnisse im Hermes-Harness schließen.
Schlussfolgerung zum Rahmenwerk
Wenn Sie auf OpenClaw aufbauen und die Kosten eine Rolle spielen: M3 ist das richtige Modell für Sie. Wenn Sie MCP-lastige Pipelines einsetzen: K2.7 Code ist die erste Wahl. Wenn Sie framework-unabhängige Konsistenz über Hermes, OpenClaw und andere gleichzeitig benötigen: Die harness-unabhängige Konsistenz von Nemotron Ultra ist die richtige Entscheidung.
Vibe Coding: Welches Modell eignet sich am besten zum Entwickeln von Apps?
“Vibe Coding” ist zum Schlagwort für einen Stil der KI-gestützten Entwicklung geworden, bei dem man ganze Funktionen oder kleine Anwendungen iterativ anhand von Eingaben in natürlicher Sprache erstellt, oft ausgehend von Screenshots, Mockups oder groben Beschreibungen. Dabei geht es weniger um präzise Codegenerierung als vielmehr um die Fähigkeit des Modells, über viele Iterationen hinweg eine kohärente Produktvision aufrechtzuerhalten und gleichzeitig funktionierende, visuell stimmige Ergebnisse zu liefern.
Jedes dieser drei Modelle geht bei der Vibe-Codierung anders vor, und diese Unterschiede sind von Bedeutung.
MiniMax M3: Die leistungsstärkste multimodale Grundstruktur
M3 wurde speziell für die visuelle Dimension des Vibe-Codings entwickelt. MiniMax hat den VIBE (Visual & Interactive Benchmark for Execution) eigens eingeführt, um die Fähigkeit eines Modells zu messen, vollständige, lauffähige Anwendungen von Grund auf zu erstellen – wobei die Interaktionslogik und die visuelle Darstellung der generierten Anwendungen in einer realen Ausführungsumgebung automatisch bewertet werden.
Dass M3 diesen Benchmark eingeführt hat, ist bezeichnend. MiniMax ist offensichtlich der Ansicht, dass herkömmliche Programmier-Benchmarks – die prüfen, ob Code Unit-Tests besteht – an der Frage vorbeigehen, die beim Vibe-Coding wirklich zählt: Funktioniert die App? und Sieht das richtig aus?
In der Praxis bedeutet die native Video-/Bildeingabe von M3, dass Sie einen Figma-Screenshot oder eine aufgezeichnete Benutzersitzung einfügen und das Modell bitten können, direkt darauf aufzubauen. Das ist ein grundlegend anderer Arbeitsablauf als die Beschreibung Ihrer Vorstellungen in Worten. Bei frontend-lastiger Entwicklung – React-Komponenten, Web-App-Benutzeroberflächen, Mobile-First-Layouts – verändert die visuelle Eingabefunktion von M3 den Arbeitsablauf auf eine Weise, mit der reine Textmodelle nicht mithalten können.
Das 1-Million-Token-Kontextfenster ist für das Vibe-Coding in einer besonderen Weise von Bedeutung: Man kann eine gesamte mittelgroße Codebasis in den Kontext einbinden, was bedeutet, dass das Modell dateiübergreifend umgestalten kann, ohne den Überblick darüber zu verlieren, was es gerade erstellt. Dies ist einer der tatsächlichen Fehlerfälle beim Vibe-Coding mit Modellen mit kleinerem Kontext – der Code beginnt im Laufe der Iterationen von sich selbst abzuweichen, da das Modell frühere architektonische Entscheidungen aus den Augen verliert.
Kimi K2.7 Code: Die beste werkzeugintegrierte Vibrationscodierung
Entwickler können Screenshots, Diagramme, Produktentwürfe oder sogar Videos hochladen und Kimi K2.7 bitten, darauf basierend Code zu generieren – nützlich für die Frontend-Entwicklung, die Fehlerbehebung bei visuellen Problemen und das Reverse Engineering von Benutzeroberflächen.
Der Vorteil von K2.7 beim Vibe-Coding liegt in der Integration des MCP-Tools. Wenn Sie über die Kimi Code CLI erstellen, kann das Modell eine Schleife durch ein echtes Terminal durchlaufen: die App ausführen, die Ausgabe überprüfen, Fehlerprotokolle lesen und iterieren – alles innerhalb derselben Sitzung. Diese durchgängige Schleife mit echtem Ausführungsfeedback ist es, was ’Code generieren“ von ”das Ding tatsächlich erstellen“ unterscheidet.”
Die Reduzierung der Tokenanzahl bei 30% ist auch speziell für das Vibe-Coding von Bedeutung, da Vibe-Coding-Sitzungen in der Regel lang und dialogorientiert sind. Ein Modell, das pro Schlussfolgerungsschritt weniger Token benötigt, kann längere Sitzungen zu geringeren Kosten bewältigen, was genau dem entspricht, wie die iterative App-Entwicklung tatsächlich abläuft.
Nemotron 3 Ultra: Leistungsstark, aber weniger spezialisiert
Nemotron Ultra ist ein leistungsstarker Allrounder, der multimodale Eingaben gut verarbeitet, doch bei seiner Entwicklung stand die Optimierung der Konsistenz der Agenten und der Tiefe der Schlussfolgerungen im Vordergrund und nicht die visuelle Benutzeroberfläche für Vibe-Coding. Für reine Vibe-Coding-Workflows – Screenshot rein, funktionierende App raus – ist M3 die passendere Wahl.
Nemotron Ultra spielt seine Stärken in Entwicklungsabläufen vor allem in den Phasen der Architekturplanung und der logischen Durchdringung aus: beim Entwurf von Systemkomponenten, bei der Fehlerbehebung komplexer Probleme im Zusammenhang mit der Zustandsverwaltung oder bei der Ausarbeitung kniffliger Algorithmen. Es geht weniger darum, “diese Benutzeroberfläche anhand dieses Screenshots zu erstellen”, sondern vielmehr darum, “mir beim Entwurf der Architektur und bei der logischen Durchdringung von Randfällen zu helfen”.”
Fazit zu Vibe Coding
Bei der Bewertung von Vibe-Codierungssystemen lautet die Rangfolge: M3 (beste visuelle Integration, größter Kontext, günstigster Preis) → K2.7 Code (beste Rückkopplungsschleife bei der tatsächlichen Ausführung, stärkste Tool-Nutzung) → Nemotron Ultra (hervorragender Assistent für die Argumentation, weniger spezialisiert auf die visuelle App-Erstellung).
Wenn Sie hauptsächlich in einem stark visuell geprägten Umfeld (React, Vue, Mobile) programmieren, ist M3 das richtige Modell für Sie. Wenn Sie Backend-lastige Apps oder Systeme entwickeln, bei denen die Iterationsschleife das Ausführen und Testen des eigentlichen Codes umfasst, ist die MCP-Integration von K2.7 Code der entscheidende Vorteil.
Preisgestaltung und Kosten-Leistungs-Analyse
Schauen wir uns einmal die tatsächliche Kostenrechnung an, denn die in den Schlagzeilen genannten Vergleichswerte ergeben nur im Zusammenhang mit den von Ihnen tatsächlich gezahlten Beträgen einen Sinn.
| Modell | Eingabe (pro 1 Mio. Token) | Ertrag (pro 1 Mio. Token) | Kontext | Lizenz |
|---|---|---|---|---|
| MiniMax M3 (Werbeaktion) | $0.30 | $1.20 | 1 Mio. | Freihanteln |
| MiniMax M3 (Standard) | $0.60 | $2.40 | 1 Mio. | Freihanteln |
| Kimi K2.7 Code | $0.95 | $4.00 | 256 KB | Modifiziertes MIT |
| Nemotron 3 Ultra (DeepInfra) | $0.37 | $1.08 | 1 Mio. | OpenMDW 1.1 |
| Claude Opus 4.8 | $5.00 | $25.00 | — | Urheberrechtlich geschützt |
| GPT-5.5 | ~$10.00+ | ~$30.00+ | — | Urheberrechtlich geschützt |
Das Kostenbild wird differenzierter, wenn man die Effizienz berücksichtigt. Die Token-Reduzierung von 30% bei K2.7 bedeutet, dass eine Sitzung, die auf K2.6 1 Mio. Ausgabetoken verbraucht, auf K2.7 etwa 700.000 verbraucht. Bei einem Output von $4.00/M ergibt sich ein Vergleich von $4.00 zu $2.80 – das ist nicht nur ein Preisunterschied, sondern eine Effizienzsteigerung. Bei langen Agentenläufen summiert sich das erheblich.
Nemotron Ultra mit $0,37/$1,08 von DeepInfra ist für ein 550B-Modell mit einem Intelligenzindex von 47,7 bemerkenswert günstig – was zum Teil auf seinen Durchsatzvorteil zurückzuführen ist (5,9-mal schneller bedeutet geringere Kosten pro abgeschlossener Aufgabe, selbst wenn die Preise pro Token gleich wären).
M3 ist im Sonderangebot absolut gesehen am günstigsten, doch auch der Standardpreis von $0,60/$2,40 bietet für ein Kontextfenster von einer Million Token mit Codierung auf Spitzenniveau ein hervorragendes Preis-Leistungs-Verhältnis.
Bei den meisten Produktionsimplementierungen geht es bei der tatsächlichen Kostenberechnung nicht um „Token pro Dollar“, sondern um „Abschlüsse pro Dollar“. Stellen Sie eine kleine, repräsentative Testsuite Ihrer tatsächlichen Aufgaben zusammen und berechnen Sie die Kosten für jedes Modell anhand dieser. Die angegebenen Preise dienen lediglich als Ausgangspunkt, nicht als endgültige Antwort.
Wer sollte welches Modell verwenden?
Die drei Modelle konkurrieren nicht wirklich um denselben Anwendungsfall. Hier eine praktische Übersicht:
Entscheiden Sie sich für den MiniMax M3, wenn:
- Für umfangreiche Codebasen, lange Dokumente oder Projekte mit mehreren Dateien benötigen Sie das größte Kontextfenster
- Ihr Arbeitsablauf ist visuell orientiert (Screenshots → Code, Mockups → Umsetzung)
- Die Kosten sind Ihr wichtigster limitierender Faktor, und Sie müssen viele Iterationen durchführen
- Sie entwickeln Browser-Agenten oder autonome Forschungs-Pipelines, die von den Stärken von BrowseComp profitieren
- Sie möchten ein einziges Modell, das Text, Bilder und Videos verarbeitet, ohne dass ein Wechsel erforderlich ist
Wählen Sie den Kimi K2.7-Code, wenn:
- Sie erstellen MCP-integrierte Pipelines und benötigen ein Tool mit höchster Zuverlässigkeit bei der Ausführung
- Sie führen eine agentische Kodierung mit langfristigem Horizont und mehrstufigen Endpunkt-Workflows durch
- Sie führen die Bereitstellung über die Kimi Code CLI durch und möchten eine möglichst enge Integration zwischen Modell und Test-Suite
- Sie wünschen sich die Flexibilität eines Modells ohne Gewichtsbeschränkung unter einer modifizierten MIT-Lizenz
- Die Token-Effizienz ist bei langen Sitzungen von Bedeutung (die Reduzierung bei 30% verstärkt sich bei umfangreichen Agentenläufen)
Entscheiden Sie sich für Nemotron 3 Ultra, wenn:
- Sie arbeiten in einem in den USA ansässigen Unternehmen, und aufgrund geopolitischer Bedenken kommen Modelle chinesischer Herkunft nicht in Frage
- Sie benötigen eine Modelloptimierung mit uneingeschränktem Zugriff auf Trainingsdaten, SFT-Beispiele und RL-Umgebungen
- Die Konsistenz des Frameworks ist wichtig – Sie führen die Bereitstellung gleichzeitig über Hermes, OpenClaw und andere Testumgebungen durch
- Der Durchsatz ist entscheidend für den Einsatz einer großen Anzahl von Agenten im Parallelbetrieb
- Du beschäftigst dich mit Aufgaben, die viel logisches Denken erfordern: Wettbewerbsprogrammierung, komplexe Architektur, logische Aufgaben auf Hochschulniveau
- Du willst das beste amerikanische Modell in der offenen Gewichtsklasse, Punkt
Der ehrliche Sonderfall: Wenn Sie in einem kleinen Start-up oder als unabhängiger Entwickler tätig sind, flexible Datenanforderungen haben und die Kosten Ihre größte Einschränkung darstellen, ist M3 zum Aktionspreis wirklich kaum zu übertreffen. Wenn Sie in einem regulierten US-Unternehmensumfeld tätig sind, ist Nemotron Ultra die sichere Standardwahl, und es ist wettbewerbsfähig genug, dass Sie nicht viel einbüßen, wenn Sie die Modelle chinesischer Herkunft meiden.
Das offensichtliche Tabuthema: Datenschutz
Dieser Vergleich wäre unvollständig, würde man ein Thema außer Acht lassen, das für den Einsatz in Unternehmen zunehmend an Bedeutung gewinnt.
MiniMax hat seinen Hauptsitz in Shanghai. Nach dem 2017 in Kraft getretenen chinesischen Geheimdienstgesetz ist jedes chinesische Unternehmen – einschließlich MiniMax – gesetzlich verpflichtet, “die staatliche Geheimdienstarbeit zu unterstützen, zu fördern und mit ihr zusammenzuarbeiten”. Diese Verpflichtung gilt fortlaufend und bietet dem Unternehmen keine rechtliche Handhabe, die Erfüllung dieser Verpflichtung zu verweigern, wenn eine behördliche Aufforderung eingeht.
Im Rahmen einer am 29. April 2026 angekündigten Untersuchung des US-Kongresses wurde MiniMax neben anderen chinesischen KI-Labors genannt; Anthropic erhob im Februar 2026 Vorwürfe wegen industrieller Nachahmung gegen Claude; und eine laufende Urheberrechtsklage von Disney, Universal und Warner Bros. Discovery bezüglich des Produkts Hailuo wurde am 26. Mai 2026 zur Verhandlung zugelassen.
Das Gleiche gilt für „Kimi K2.7 Code“ von Moonshot AI (ebenfalls mit Sitz in Peking). Der technische Wert dieser Modelle ist unbestritten, doch Beschaffungsteams in regulierten Branchen, in der Verteidigungsindustrie tätigen Unternehmen oder in jeder Organisation, die mit sensiblen geistigen Eigentumsrechten umgeht, müssen diese Aspekte bei ihrer Entscheidung berücksichtigen.
Die Tatsache, dass beide Modelle keine Gewichtsbeschränkungen vorsehen, bietet eine mögliche Abhilfemaßnahme: Wenn Sie die Lösung auf Ihrer eigenen Infrastruktur selbst hosten und niemals Anfragen an die APIs von Moonshot oder MiniMax senden, kann der Datenfluss zu chinesischer Infrastruktur unterbunden werden. Ob dies für Ihre Compliance-Anforderungen ausreicht, ist eine rechtliche und risikobezogene Frage, die spezifisch für Ihr Unternehmen ist.
Nemotron Ultra ist ein Modell des amerikanischen Unternehmens NVIDIA, das unter der OpenMDW-1.1-Lizenz der Linux Foundation steht. Für US-Unternehmen mit Anforderungen an die Datenhoheit ist dies ein wesentliches Unterscheidungsmerkmal, das in den Benchmark-Tabellen nicht zum Ausdruck kommt.
Endgültiges Urteil
Zwei Wochen, drei bahnbrechende Veröffentlichungen. Die Entwicklung der Open-Weight-KI im Juni 2026 ist keine Geschichte schrittweiser Verbesserungen – es ist ein Quantensprung.
MiniMax M3 ist das vielseitigste der drei Modelle und bietet das beste Preis-Leistungs-Verhältnis. Dank seines 1-Millionen-Token-Kontextes und der nativen Multimodalität eignet es sich besonders gut für visuell orientierte Entwicklungsaufgaben. Zu beachten sind jedoch die nicht verifizierten Benchmark-Ergebnisse sowie datenschutzrechtliche Bedenken beim Einsatz in Unternehmen.
Kimi K2.7 Code ist derzeit das beste agentenbasierte Codierungsmodell im Open-Weight-Bereich, Punkt. Als Open-Weight-Modell Claude Opus 4.8 bei der Nutzung von MCP-Tools zu übertreffen, ist kein unbedeutender Benchmark-Erfolg – es ist der Unterschied zwischen einer “beeindruckenden Labordemonstration” und “tatsächlich besser in dem, was Agenten in der Produktion leisten”. Die Verbesserung der Token-Effizienz von 30% gegenüber K2.6 macht den Betrieb in großem Maßstab deutlich kostengünstiger. Der Vorbehalt: Es handelt sich um einen reinen Codierungsspezialisten, unabhängige Benchmarks stehen noch aus, und die Fragen zur Datenherkunft bei Moonshot AI sind dieselben wie bei MiniMax.
Nemotron 3 Ultra ist das Modell, auf das Sie setzen, wenn Sie ein Open-Weight-Modell auf dem neuesten Stand der Technik benötigen, auf das Sie im Unternehmenskontext vertrauen können, das Sie mit vollständiger Transparenz feinabstimmen können, das auf seiner Intelligenzebene schneller läuft als jedes andere und das durch eine Lieferkette mit einer solchen Glaubwürdigkeit untermauert ist, dass sich Rechts- und Beschaffungsabteilungen damit wohlfühlen. Sein 4,8-facher Durchsatzvorteil gegenüber Kimi K2.6 ist für Produktions-Agent-Workloads wirklich transformativ, und seine harness-unabhängige Konsistenz in Agent-Benchmarks ist ein Qualitätsmerkmal, das die Benchmark-Tabellen allein nicht vollständig vermitteln.
Die übergeordnete Erkenntnis aus diesen zwei Wochen: Die Grenze für Open-Weight-KI hat sich von “fast so gut wie geschlossene Modelle” zu “in bestimmten entscheidenden Bereichen besser als geschlossene Modelle” verschoben. Das Ergebnis der MCP-Tool-Anwendung aus K2.7 ist das bislang deutlichste Signal dafür. Wir warten nicht mehr darauf, dass Open Source aufholt – in bestimmten Bereichen ist es bereits voraus.
Haben Sie eines dieser Modelle bereits in der Praxis getestet? Teilen Sie Ihre Erfahrungen in den Kommentaren mit – insbesondere, wenn Sie direkte Vergleichstests mit Agenten-Sitzungen auf OpenClaw oder Hermes durchgeführt haben. Daten aus der Praxis sind derzeit wertvoller als jeder Benchmark.
Für weitere detaillierte Einblicke in KI-Modelle folgen Sie tech.grahammiranda.com.










