En el plazo de dos semanas se han presentado tres modelos de peso abierto a gran escala. Uno procede de una startup de Shanghái que, hace un año, nadie conocía fuera de los círculos de la IA. Otro, del laboratorio de IA más seguido de Pekín. Y otro, de la empresa que fabrica los chips en los que todos los demás ejecutan sus modelos. Cada uno apuesta por algo diferente en cuanto a lo que más importa ahora mismo en los agentes de IA, y los tres merecen toda tu atención.
Índice
- Por qué esta comparación es importante ahora mismo
- Los candidatos de un vistazo
- MiniMax M3
- Código Kimi K2.7
- Nemotron 3 Ultra
- Comparativas directas
- Rendimiento de los agentes en el mundo real: Hermes, OpenClaw y WildClawBench
- Vibe Coding: ¿Qué modelo permite crear aplicaciones de verdad?
- Precios y análisis de la relación calidad-precio
- ¿Quién debería utilizar cada modelo?
- El elefante en la habitación: la privacidad de los datos
- Veredicto final
Por qué esta comparación es importante ahora mismo
Si has estado al tanto de las novedades en el ámbito de la IA de pesos abiertos durante los últimos seis meses, ya sabrás que todo está avanzando más rápido de lo que nadie había previsto. Las mismas capacidades que hace doce meses requerían una suscripción a Claude Opus con $15/M tokens están ahora disponibles como pesos descargables que puedes ejecutar en tus propios servidores.
Pero junio de 2026 fue algo totalmente diferente. En el transcurso de doce días, se produjeron tres lanzamientos importantes de peso libre con apenas unos días de diferencia entre ellos: MiniMax M3 el 1 de junio, Nemotron 3 Ultra el 4 de junio, y —literalmente ayer— Código Kimi K2.7 el 12 de junio. En conjunto, representan posiblemente el periodo de dos semanas más significativo en la historia de la IA de código abierto, y cada uno de ellos apuesta por una arquitectura y una filosofía diferentes en cuanto a lo que debe hacer la próxima generación de agentes de IA.
Esto no es solo un resumen de pruebas de rendimiento. Vamos a analizar cómo se comportan realmente estos modelos en producción: cómo se desenvuelven en los marcos de agentes que los desarrolladores utilizan realmente —OpenClaw, Hermes Agent y el cada vez más popular flujo de trabajo de VIBE Coding— y en qué aspectos cada modelo te ahorrará dinero o tiempo, frente a aquellos en los que te decepcionará discretamente.
Empecemos por ver quiénes son realmente estas modelos.

Los candidatos de un vistazo
Antes de entrar en detalles, aquí tienes un resumen de 30 segundos sobre qué es cada modelo y por qué existe:
MiniMax M3 Es la apuesta de MiniMax, con sede en Shanghái, para convertirse en el primer modelo de peso abierto que combine de verdad tres cosas a la vez: un rendimiento de codificación de vanguardia, una ventana de contexto de un millón de tokens y multimodalidad nativa —incluidas imágenes, vídeo y control de ordenadores de sobremesa—. Se comercializa bajo una licencia de peso abierto con precios de suscripción a partir de $20 al mes.
Código Kimi K2.7 Se trata del quinto lanzamiento importante de Moonshot AI (Pekín) en menos de un año: una actualización del código altamente específica para la ya impresionante versión K2.6, que reduce el uso de tokens de razonamiento en aproximadamente 30%, al tiempo que mejora significativamente los resultados en pruebas clave de rendimiento de los agentes. Se publicó ayer en Hugging Face bajo una licencia MIT modificada, con un precio de 1,95/4,00 TP4T por millón de tokens.
Nemotron 3 Ultra Es la respuesta de NVIDIA a la pregunta: ¿y si el fabricante de chips también construyera el modelo? Con 550 000 millones de parámetros, es el modelo de peso abierto más potente salido de un laboratorio estadounidense, con una puntuación de 47,7 en el Índice de Inteligencia Artificial Analítica, una puntuación que lo sitúa al mismo nivel que Claude Opus 4.6 y Kimi K2.6. Se lanzó el 4 de junio bajo la licencia OpenMDW-1.1 de la Fundación Linux.
Tres modelos. Tres historias de origen muy diferentes. Todas merecen la pena.
MiniMax M3
¿Quién lo hizo y por qué?
MiniMax no es un nombre muy conocido para la mayoría de la gente fuera de los círculos de la IA, pero dentro de ellos, esta empresa con sede en Shanghái es cada vez más difícil de pasar por alto. Cotizó en la Bolsa de Hong Kong en enero de 2026 y lleva casi un año trabajando en el desarrollo de M3. Su propuesta es tan ambiciosa que roza lo agresivo: M3 se posiciona como el primer modelo de peso abierto que combina codificación de vanguardia, una ventana de contexto de un millón de tokens y multimodalidad nativa en un único sistema, y lo han lanzado a un precio que hace que los modelos cerrados parezcan caros.
La arquitectura: MiniMax Sparse Attention
El aspecto técnico más destacado en este caso es el Atención dispersa MiniMax (MSA) arquitectura. La atención estándar de los transformadores es cuadrática: cada token presta atención a todos los demás tokens, lo que significa que duplicar el contexto multiplica por cuatro, aproximadamente, la factura de computación. Con un millón de tokens, las cifras se vuelven abrumadoras.
MiniMax ha desarrollado el M3 basándose en su nuevo diseño MSA, que reduce el consumo computacional por token en un contexto de 1 millón a aproximadamente una vigésima parte del de la generación anterior, con un precargamiento más de nueve veces más rápido y una decodificación más de quince veces más rápida. No se trata de una mejora insignificante. Es la diferencia entre que una ventana de contexto de un millón de tokens sea una especificación teórica y que sea algo que realmente puedas llevar a producción sin que la factura de la GPU se dispare.
El modelo se basa en MiniMax Sparse Attention (MSA), que sustituye la atención completa por la selección de bloques KV para reducir el cálculo por token en contextos largos, lo que permite un precargamiento y una decodificación considerablemente más rápidos sin perder calidad en la mayoría de las tareas.
Curiosamente, MiniMax eliminó la atención dispersa en su generación M2 y la ha recuperado específicamente para la M3, lo que sugiere que la arquitectura ya funcionaba, pero que necesitaban más datos de entrenamiento o un trabajo de alineación posterior al entrenamiento para que resultara competitiva. La M3 parece indicar que lo han conseguido.
¿Qué es lo que realmente diferencia a M3?
MiniMax ha lanzado M3, que combina una codificación de vanguardia y un rendimiento de tipo agente con una ventana de contexto de un millón de tokens y multimodalidad nativa, todo ello por una fracción del coste de los principales modelos propietarios.
Vale la pena detenerse en el aspecto de la multimodalidad. M3 no solo acepta imágenes, sino que procesa imágenes y vídeos, y puede manejar un ordenador de sobremesa de forma nativa. Para flujos de trabajo de programación en los que se pasa una captura de pantalla de una interfaz de usuario y se le dice “constrúyeme esto”, resulta realmente útil de una forma que un modelo de programación basado solo en texto no lo es.
MiniMax-M3 es el modelo multimodal de codificación y agente de vanguardia de MiniMax, basado en la arquitectura MSA. Admite una ventana de contexto de hasta 1 millón de tokens y acepta entradas de imagen y vídeo. El modelo está diseñado para la generación de código, flujos de trabajo con agentes, uso de herramientas, comprensión de contextos largos y razonamiento en varios pasos.
El referente VIBE: el estándar creado por la propia MiniMax
Hay algo que merece la pena destacar: MiniMax no se ha limitado a lanzar un modelo, sino que ha establecido un nuevo referente. El VIBE (Referencia visual e interactiva para la ejecución) El marco VIBE es la respuesta de MiniMax a lo que consideran una carencia en los marcos de evaluación existentes. A diferencia de los benchmarks tradicionales como SWE-bench y Terminal-bench, que se centran en la corrección del código estático o en la finalización de tareas a nivel de línea de comandos, VIBE evalúa automáticamente la lógica de interacción y la presentación visual de las aplicaciones generadas en un entorno de ejecución real, lo que proporciona una valoración más fiel de la experiencia real del usuario.
Es un criterio de evaluación sesgado, sin duda, pero la crítica subyacente no es errónea. SWE-bench indica si un modelo es capaz de resolver incidencias de GitHub; no indica si un modelo es capaz de crear una aplicación web funcional y visualmente coherente a partir de una captura de pantalla. M3 obtiene una buena puntuación en este aspecto, lo cual tiene sentido dada su arquitectura multimodal nativa.
Pruebas de rendimiento de MiniMax M3
MiniMax M3 obtiene una puntuación de 59,01 TP3T en SWE-Bench Pro, 66,01 TP3T en Terminal-Bench 2.1, 34,81 TP3T en SWE-fficiency y 83,5 en BrowseComp. La puntuación de BrowseComp es especialmente llamativa: 83,5 lo sitúa por delante de GPT-5.5 en tareas de navegación web autónoma, que es precisamente el tipo de capacidad que se busca en un agente que realiza trabajos de programación que requieren mucha investigación.
MiniMax M3 obtiene una puntuación de 59,01 TP3T en SWE-Bench Pro, superando a GPT-5.5 y Gemini 3.1 Pro y acercándose a los 4,7 de Claude Opus. También obtiene una puntuación de 66,01 TP3T en Terminal Bench 2.1, 34,81 TP3T en SWE-fficiency, 28,81 TP3T en KernelBench Hard y 74,21 TP3T en MCP Atlas.
Una salvedad que conviene mencionar: la referencia de comparación que utiliza MiniMax en sus propios materiales es Claude Opus 4.7, y no la versión más reciente, Opus 4.8. Ese enfoque no es incorrecto, pero los desarrolladores que evalúen M3 en relación con el límite actual de referencia deberían utilizar las cifras de Opus 4.8, que sitúan a M3 más lejos de la vanguardia de lo que da a entender el anuncio de lanzamiento.
Aun así, la puntuación de 59% en SWE-Bench Pro obtenida por un modelo de peso abierto con un contexto de un millón de tokens es notable, y los datos independientes confirman en gran medida que las cifras comunicadas por la empresa se sitúan en el orden de magnitud adecuado.
Precios
En su lanzamiento, MiniMax M3 se cotizó en OpenRouter a $0,60 por millón de tokens de entrada y $2,40 por millón de tokens de salida, con un descuento promocional temporal de 50% que lo situaba en aproximadamente $0,30 de entrada y $1,20 de salida por millón de tokens —una fracción de lo que cuestan los modelos cerrados de vanguardia como Claude Opus y GPT-5.5.
A modo de contexto: Claude Opus 4.8 tiene un coste de $5/$25 por millón de tokens. M3, a su precio promocional, cuesta aproximadamente una vigésima parte de ese importe. Incluso a su precio estándar, el coste es de una décima parte. El argumento del coste es tan convincente como el de las prestaciones.
Código Kimi K2.7
¿Quién lo hizo y por qué?
Moonshot AI se lanzó ayer —12 de junio de 2026— con lo que supone el quinto lanzamiento importante en menos de un año para la empresa con sede en Pekín, y ha basado sus modelos en tres pilares: capacidades de agencia, gestión de contexto ampliado y entradas multimodales. La familia Kimi K2 se ha convertido en una de las líneas de peso abierto más seguidas de 2026, y K2.7 Code es su versión más avanzada hasta la fecha.
El cambio de nombre es significativo. Es la primera vez que Moonshot incluye explícitamente la palabra “Code” en el nombre del modelo. No pretenden que K2.7 sea un modelo de uso general: está optimizado para la ingeniería, no para el chat en general, y quieren que lo sepas.
Arquitectura: la misma base de un billón de parámetros, pero más optimizada
Kimi K2.7 Code es un modelo de «mezcla de expertos» (Mixture-of-Experts) con un billón de parámetros, 32 000 millones de parámetros activos por token y 384 expertos, que cuenta con una ventana de contexto de 262 144 tokens —heredada de K2.6— y compresión automática del contexto para sesiones prolongadas de largo plazo.
La arquitectura en sí no ha cambiado drásticamente con respecto a K2.6: sigue siendo el marco MoE de 1 T que convirtió a Kimi K2.6 en el modelo de peso abierto mejor clasificado en el Índice de Inteligencia Artificial a principios de este año. Lo que representa K2.7 Code es un perfeccionamiento específico: el mismo chasis, con el motor reajustado específicamente para flujos de trabajo de codificación agentiva.
Kimi K2.7 Code es el modelo agente de Moonshot AI especializado en programación, basado en Kimi K2.6. Mejora la ejecución de tareas de programación a largo plazo en el mundo real, el cumplimiento de instrucciones y la eficiencia de tokens, al tiempo que reduce el consumo de tokens de razonamiento en aproximadamente 301 TP3T en comparación con Kimi K2.6.
Esa reducción de 30% en tokens de reflexión no es poca cosa. En una sesión prolongada de un agente de codificación en la que el modelo realiza cientos de iteraciones, un menor número de tokens de reflexión se traduce en un menor coste y un tiempo de ejecución más rápido. Si estás ejecutando algo como una refactorización completa del repositorio durante la noche, las mejoras en eficiencia de K2.7 con respecto a K2.6 se acumulan de forma significativa.
Qué es lo que realmente mejora K2.7
El comunicado de Moonshot destaca tres cifras: +21,81 TP3T respecto a K2.6 en Kimi Code Bench v2, +11,01 TP3T en Program Bench y +31,51 TP3T en MLS Bench Lite, junto con la afirmación de que el uso de tokens de razonamiento es aproximadamente 301 TP3T menor en comparación con K2.6.
Estas son cifras propias, obtenidas mediante las suites de pruebas de rendimiento de Moonshot. Hay que señalar que, a fecha de 13 de junio de 2026 —un día después del lanzamiento—, no hay cifras independientes de terceros para el K2.7 en las suites públicas estándar: SWE-bench Verified, SWE-bench Pro, Terminal-Bench, LiveCodeBench, GPQA Diamond, AIME o MMLU-Pro. Esa verificación llegará en los próximos días. Basándonos en la trayectoria de K2.6 (que sí generó resultados de pruebas de rendimiento independientes competitivos), es probable que las cifras internas sean, en términos generales, precisas.
El resultado más destacado hasta ahora en el ámbito independiente: K2.7-Code obtuvo una puntuación de 81,1 en MCP Mark Verified, superando los 76,41 TP3T de Claude Opus 4.8. Esa suite comprueba la correcta invocación de herramientas a través del Model Context Protocol: comprobaciones de CI, actualizaciones de tickets y ediciones de archivos en un solo bucle. El hecho de que un modelo de peso abierto supere ahora a Opus 4.8 en el uso de herramientas MCP es, desde cualquier punto de vista razonable, un hito para la IA de código abierto.
La historia de la plataforma Kimi Code
Un aspecto que a menudo se pasa por alto en las comparativas de modelos: K2.7-Code se ejecuta dentro de Kimi Code —el agente de terminal de código abierto de Moonshot— y ofrece planes de suscripción a partir de 1 TP4T al mes. Moonshot compite explícitamente en toda la pila: modelo, CLI y economía de las suscripciones. Se trata de la economía de Cursor frente a Kimi, y es importante para los equipos que evalúan su flujo de trabajo de programación de IA de forma holística, en lugar de limitarse al modelo en sí.
Merece la pena probar la propia interfaz de línea de comandos de Kimi Code. Es compatible con el shell, admite la integración con el servidor MCP y, gracias a su licencia de código abierto, no te ves obligado a utilizar la API de Moonshot si prefieres alojarla tú mismo.
Capacidades multimodales
Al igual que M3, K2.7 Code no se limita al texto. Los desarrolladores pueden subir capturas de pantalla, diagramas, maquetas de productos o incluso vídeos y pedirle al modelo que genere código a partir de ellos. Esto lo hace útil para el desarrollo front-end, la depuración de problemas visuales y la ingeniería inversa de interfaces. La capacidad de visión es real y realmente útil para tareas de programación centradas en la interfaz de usuario, aunque el ámbito multimodal de K2.7 es ligeramente más limitado que el de M3 (que incluye el uso de ordenadores de sobremesa).
Precios
El precio del código Kimi K2.7 es de $0,95 por cada millón de tokens de entrada, $4,00 por cada millón de tokens de salida y $0,19 por cada millón de aciertos en la caché, en la API de Moonshot. En Hugging Face hay disponibles pesos gratuitos para el autoalojamiento.
Para un modelo de un billón de parámetros, una entrada de $0,95 resulta muy competitiva. El precio de salida ($4,00) es superior al de M3 en términos absolutos, pero la reducción de 30% en tokens de razonamiento de K2.7 significa que el coste real por tarea completada puede ser inferior a lo que sugiere la cifra bruta por token. Los precios deben modelarse en función de su carga de trabajo específica, no solo de la tarifa nominal.
Nemotron 3 Ultra
¿Quién lo hizo y por qué?
Esto es lo que la mayoría de los medios pasan por alto sobre Nemotron 3 Ultra: se trata de NVIDIA creando un modelo de vanguardia. No es una empresa de chips que se está iniciando en la IA, ni un laboratorio de investigación vinculado a un negocio de infraestructuras: NVIDIA, cuyos ingresos dependen de los procesos de entrenamiento de IA de todos los demás, decidió crear y lanzar un modelo de vanguardia competitivo bajo una licencia totalmente abierta. Eso es una declaración significativa sobre hacia dónde se dirige el mercado.
El 4 de junio de 2026, NVIDIA lanzó Nemotron 3 Ultra, un modelo de razonamiento totalmente abierto con 550 000 millones de parámetros, diseñado específicamente para agentes de larga duración.
El 4 de junio de 2026, NVIDIA publicó discretamente Nemotron 3 Ultra en Hugging Face, dos días después de que Jensen Huang lo anunciara desde el escenario de la feria Computex en Taipéi. 550 000 millones de parámetros. 55 000 millones activos por paso de predicción. Más de 300 tokens por segundo. La puntuación más alta en el Índice de Inteligencia de cualquier modelo de peso abierto desarrollado en EE. UU. hasta la fecha.
Arquitectura: el híbrido Mamba-Transformer que lo cambia todo
Aquí es donde Nemotron 3 Ultra se vuelve interesante desde el punto de vista técnico. Mientras que M3 utiliza la atención dispersa para gestionar contextos largos y K2.7 sigue la trayectoria probada del transformador MoE, Nemotron Ultra toma un camino completamente diferente.
NVIDIA ha lanzado Nemotron 3 Ultra, un modelo «Mixture-of-Experts» de 550 000 millones de parámetros con 55 000 millones de parámetros activos, optimizado para coordinar flujos de trabajo de agentes complejos y de larga duración. Las innovaciones arquitectónicas incluyen capas híbridas Mamba-Transformer para un manejo eficiente de contextos largos, cuantificación NVFP4 para la implementación en GPU de diferentes arquitecturas con un rendimiento hasta cinco veces superior, LatentMoE para el enrutamiento experto y predicción multitoken para mejorar la velocidad generativa en tareas de múltiples turnos.
El enfoque híbrido Mamba-Transformer es significativo. Las capas Mamba gestionan las dependencias secuenciales de forma más eficiente que la atención estándar en contextos largos, ya que escalan de forma lineal, en lugar de cuadrática, con la longitud de la secuencia. Al combinar esto con la atención del Transformer para las tareas que se benefician de ella, y al integrar todo ello en una arquitectura MoE, NVIDIA logra una combinación poco habitual: alta inteligencia, alto rendimiento y un coste por token relativamente bajo.
La cuantificación NVFP4 es otro factor diferenciador. En las GPU Blackwell (sucesoras de la H100), funciona con operaciones matemáticas FP4 nativas. En Hopper (H100), recurre a W4A16. En cualquier caso, Nemotron 3 Ultra alcanza un rendimiento de inferencia 5,9 veces superior al de GLM-5.1, es 4,8 veces más rápido que Kimi K2.6 y 1,6 veces más rápido que Qwen-3.5 con una configuración de 8K tokens de entrada y 64K de salida, al tiempo que alcanza una precisión equivalente en una amplia gama de pruebas de rendimiento de razonamiento y comportamiento.
Lee eso otra vez: 4,8 veces más rápido que Kimi K2.6 con una precisión comparable. Para los equipos que utilizan agentes de producción, esa diferencia de rendimiento se traduce directamente en el coste por tarea.
Índices de referencia e índice de inteligencia
Nemotron 3 Ultra obtiene una puntuación de 47,7 en el Índice de Inteligencia Artificial, muy por delante de los siguientes modelos estadounidenses de peso abierto más potentes: Gemma 4 31B, con 39,2; Nemotron 3 Super, con 36,0; y gpt-oss-120b, con 33,3.
La advertencia sincera aparece justo ahí, en el mismo párrafo: sigue estando por detrás de la vanguardia de los pesos abiertos liderada por China (Kimi K2.6 con 53,9). Esta es una primicia estadounidense, y es una buena noticia, pero el Nemotron Ultra no es el mejor modelo de peso libre del mundo en este momento. Es el mejor de Estados Unidos, y por un amplio margen.
En tareas de tipo «agentic», Nemotron 3 Ultra obtiene una puntuación de 90,0 en PinchBench y de 56,0 en ProfBench Search. El equipo de NVIDIA reservó ambas pruebas como pruebas de generalización de validación, que se evaluaron únicamente una vez en el modelo final. Obtiene una puntuación de 71,9 en SWE-Bench Verified y de 56,4 en Terminal Bench 2.1. En razonamiento, alcanza una puntuación de 570,0 en IOI 2025, lo que NVIDIA califica como programación competitiva de nivel humano entre los tres mejores.
La puntuación de 71,91 TP3T obtenida en SWE-Bench Verified resulta especialmente competitiva. Aunque se sitúa por detrás de Claude Fable 5 y GPT-5.5 en la frontera de los modelos cerrados, supera a la mayoría de las alternativas de peso abierto y, lo que es más importante, se ha medido de forma coherente en múltiples marcos de agentes.
En AA-Omniscience, registra la puntuación más alta del conjunto en la categoría «sin alucinaciones», con un 78,7, lo que sugiere una menor tendencia a responder cuando hay incertidumbre. El contexto extenso se mantiene a gran escala: el modelo obtiene una puntuación de 94,7 en RULER con un millón de tokens.
Vale la pena destacar esa capacidad de «alucinar». En los flujos de trabajo de los agentes de producción, un modelo que sabe cuándo no sabe algo suele ser más valioso que uno que obtiene unos pocos puntos porcentuales más en las pruebas de rendimiento, pero que, con total seguridad, «alucina» en los casos extremos.
La historia de los datos de formación abiertos
NVIDIA ha publicado —en total, entre los tres lanzamientos de Nemotron 3— 50 millones de muestras de ajuste fino supervisado, 2 millones de tareas de aprendizaje por refuerzo y 55 entornos de aprendizaje por refuerzo. Ese nivel de apertura es inusual para una familia de modelos de vanguardia, y es lo que más ha valorado la comunidad de investigación en IA.
Si quieres ajustar o ampliar Nemotron Ultra, no tendrás que hacerlo a ciegas. Las recetas de entrenamiento, los datos y los entornos de evaluación son públicos. Para los equipos empresariales que necesitan un rendimiento específico para su ámbito y tienen la capacidad de realizar ajustes, esto supone una ventaja significativa que ni M3 ni K2.7 Code pueden igualar en la actualidad.
Precios
DeepInfra cuenta ya con un punto de conexión en fase de prelanzamiento, con un precio de 1 TP4T0,37 por megabit de entrada y 1 TP4T1,08 por megabit de salida, lo que supone una tarifa mejor que la media para este nivel de capacidad. OpenRouter lo tiene indexado y es accesible. La integración empresarial está disponible a través de los microservicios NVIDIA NIM en build.nvidia.com.
Nemotron 3 Ultra funciona con un coste de 1 TP y 4 T de entrada por cada 0,50 millones de tokens de entrada, y 1 TP y 4 T de salida en algunos proveedores, lo que ofrece una excelente relación calidad-precio para un modelo de este nivel de inteligencia.
Comparativas directas
A continuación se presentan, en una comparación lado a lado, las cifras principales de los tres modelos, junto con información sobre lo que mide realmente cada prueba de rendimiento:
SWE-Bench Pro (Resolución real de incidencias en GitHub)
SWE-Bench Pro evalúa la capacidad de resolver incidencias reales de GitHub registradas tras la fecha límite de entrenamiento de un modelo, lo que reduce el riesgo de contaminación de los datos en comparación con variantes anteriores de SWE-Bench. Es lo más parecido a la pregunta “¿puede este modelo corregir errores reales en bases de código reales?” que la comunidad de pruebas de rendimiento ha desarrollado hasta ahora.
- MiniMax M3: 59,01 TP3T (según datos de la empresa)
- Nemotron 3 Ultra: ~56-71,91 TP3T (verificado por SWE-Bench); cifras de SWE-Bench Pro pendientes de confirmación independiente
- Kimi K2.7 Código: K2.6 obtuvo una puntuación de 58,61 TP3T; las puntuaciones internas de K2.7 apuntan a una puntuación similar o superior — puntuación independiente pendiente
Terminal-Bench 2.1 (Tareas de la interfaz de línea de comandos en varios pasos)
Terminal-Bench comprueba lo que los agentes hacen realmente en producción: tareas de shell de varios pasos en entornos de terminal en tiempo real. Esto se acerca más a la pregunta “¿puede ejecutar un proceso de integración continua?” que a “¿puede autocompletar código?”.”
- MiniMax M3: 66.0%
- Nemotron 3 Ultra: 56.4%
- Kimi K2.7 Código: El K2.6 lideró con 67,21 TP3T; se espera que el K2.7 supere esta cifra
En Terminal-Bench, M3 y K2.7 se sitúan en un nivel similar, ambos por delante de Nemotron Ultra. Esto tiene sentido: M3 y la familia Kimi se han optimizado específicamente para tareas de codificación a largo plazo, mientras que las prioridades de diseño de Nemotron Ultra son más amplias.
Uso de la herramienta MCP (Protocolo de contexto del modelo)
El uso de herramientas MCP se está convirtiendo cada vez más en el criterio de referencia más importante para las implementaciones reales de agentes. La correcta invocación de herramientas no se reduce a las puntuaciones de los benchmarks, sino que se trata de si el agente ejecuta realmente las acciones adecuadas sin «alucinar» con nombres de funciones o parámetros.
- Kimi K2.7 Código: 81,1 en MCP Mark Verified (supera los 76,4 de Claude Opus 4.8)
- MiniMax M3: 74,2 en el MCP Atlas (datos facilitados por la empresa)
- Nemotron 3 Ultra: Buenos resultados en BFCL V4 (llamadas a funciones); aún no se han publicado las puntuaciones exactas de MCP Mark
K2.7 se lleva claramente esta categoría. El ajuste específico de Moonshot se ha centrado especialmente en los patrones de llamada a herramientas, y eso se nota.
Índice de inteligencia de análisis artificial (puntuación compuesta)
Este índice compuesto, basado en 10 evaluaciones, abarca el razonamiento, los conocimientos, las matemáticas y la programación; en esencia, es una media ponderada de la inteligencia general de un modelo.
- Familia Kimi K2.6 / K2.7: 53-54 (datos de K2.7 pendientes)
- Nemotron 3 Ultra: 47.7
- MiniMax M3: Aún sin puntuar (BenchLM sitúa al M3 en el puesto 76/100 de la clasificación provisional, 1.º en la categoría TP5T29 de un total de 122)
Velocidad (fichas por segundo)
Aquí es donde la arquitectura de Nemotron Ultra marca la diferencia:
- Nemotron 3 Ultra: Más de 300 tokens por segundo en GB200, 5,9 veces más rápido que GLM-5.1 y 4,8 veces más rápido que Kimi K2.6
- MiniMax M3: ~100 tokens por segundo con 1 millón de tokens de contexto
- Kimi K2.7 Código: Comparable a K2.6 (mejoras en el rendimiento derivadas de la eficiencia de los tokens, más que de la velocidad bruta)
En entornos de producción de alto rendimiento en los que se ejecutan muchos agentes en paralelo, la ventaja de Nemotron Ultra en cuanto a rendimiento es considerable.
Rendimiento de los agentes en el mundo real: Hermes, OpenClaw y WildClawBench
Las pruebas de rendimiento son una cosa. Cómo se comportan realmente estos modelos en los marcos de trabajo de agentes que los desarrolladores están implementando hoy en día es otra muy distinta.
OpenClaw: el marco de agentes que está conquistando el mercado
Si aún no has oído hablar de OpenClaw, pronto lo harás. En solo dos meses, OpenClaw ha conseguido 247 000 estrellas en GitHub, convirtiéndose en una plataforma de agentes de IA adoptada con entusiasmo por empresas de Silicon Valley y China. Se ejecuta localmente, es independiente del modelo e integra con aplicaciones de mensajería: tres características que la diferencian significativamente de los asistentes de IA basados en SaaS.
OpenClaw está diseñado para ser independiente del modelo, lo que significa que la calidad de tu experiencia depende casi por completo del modelo de lenguaje grande (LLM) que utilices en el back-end. Es aquí donde la elección del modelo tiene una repercusión directa.
En Prueba de rendimiento PinchBench OpenClaw ejecuta 23 tareas relacionadas con la ejecución de código, la creación de contenidos, la investigación y las herramientas del sistema. La prueba incluye 23 tareas que abarcan la ejecución de código, la creación de contenidos y las herramientas del sistema; es de código abierto y reproducible, y utiliza datos de las pruebas del agente OpenClaw de PinchBench.
Sobre la evaluación OpenClaw de PinchBench:
- Nemotron 3 Ultra: 90% en PinchBench Agent Productivity (empata con Kimi K2.6, el mejor modelo abierto chino en cuanto a finalización de tareas según la prueba de rendimiento)
- Kimi K2.7 Código: Se espera que iguale o supere los excelentes resultados de K2.6
- MiniMax M3: En general, obtiene puntuaciones altas en cuanto a rendimiento; cabe destacar la ventaja de 5 veces en cuanto a coste frente al Kimi K2.6 en las pruebas con herramientas reales de Composio.
Una comparación en condiciones reales realizada por Composio entre M3 y K2.6 (el predecesor de K2.7) reveló algo interesante: M3 consumió $0,81 en 25 tareas de Composio, mientras que Kimi consumió $4,08, es decir, aproximadamente cinco veces más. El M3 tenía una ventaja más clara en la codificación de terminales complejos; en la orquestación de herramientas SaaS cotidianas, el rendimiento era prácticamente similar.
Esa diferencia de costes no es solo una cuestión económica: significa que se pueden ejecutar cinco veces más iteraciones de agentes con el mismo presupuesto, lo cual es importante en tareas de programación que requieren mucha exploración y en las que la velocidad de iteración es el cuello de botella.
Hermes Agent: el marco que no hace distinciones
WildClawBench, publicado en mayo de 2026 por InternLM, es una de las evaluaciones independientes de agentes más rigurosas que existen en la actualidad. El benchmark evalúa lo que realmente importa: ¿puede un agente de IA realizar un trabajo real, de principio a fin, sin ayuda? Ejecuta el mismo conjunto de 60 tareas en cuatro entornos de agente diferentes —OpenClaw, Claude Code, Codex CLI y Hermes Agent— separando la capacidad del modelo de la estructura del entorno.
El arnés Hermes resulta especialmente interesante porque se diseñó para evaluar modelos independientemente de la estructura de agentes de cualquier proveedor. Es un indicador claro de la calidad del modelo subyacente.
Nemotron 3 Ultra alcanza puntuaciones verificadas por SWEBench de entre 65% y 70,4% en Pi, OpenHands, Hermes, OpenCode y Mini SWE Agent, lo que garantiza un rendimiento constante independientemente del marco de trabajo que se utilice.
Esa coherencia entre los distintos entornos de prueba es un indicador significativo de calidad. Muchos modelos que obtienen buenos resultados en su propio CLI se deterioran considerablemente cuando se trasladan a un marco de agentes diferente. La arquitectura de Nemotron Ultra parece ser resistente a los cambios de marco, probablemente porque NVIDIA la entrenó deliberadamente en múltiples entornos de prueba de agentes por tipo de tarea, en lugar de optimizarla para uno solo.
En cuanto a los códigos M3 y K2.7, los datos específicos de WildClawBench siguen circulando por la comunidad, pero el buen rendimiento histórico de la familia K2 en las evaluaciones de agentes y las mejoras en el MCP del K2.7 apuntan a unos resultados sólidos en el marco Hermes.
Conclusión del Marco
Si estás desarrollando con OpenClaw y el coste es un factor importante: M3 es tu modelo. Si estás trabajando con flujos de trabajo que hacen un uso intensivo de MCP: K2.7 Code es la mejor opción. Si necesitas una coherencia independiente del marco de trabajo en Hermes, OpenClaw y otros al mismo tiempo: la coherencia independiente del harness de Nemotron Ultra es la elección acertada.
Vibe Coding: ¿Qué modelo permite crear aplicaciones de verdad?
“El ”Vibe coding» se ha convertido en el término genérico para referirse a un estilo de desarrollo asistido por IA en el que se crean funciones completas o pequeñas aplicaciones de forma iterativa a partir de indicaciones en lenguaje natural, a menudo partiendo de capturas de pantalla, maquetas o descripciones someras. No se trata tanto de la generación precisa de código como de la capacidad del modelo para mantener una visión coherente del producto a lo largo de muchas iteraciones, al tiempo que produce resultados funcionales y visualmente coherentes.
Cada uno de estos tres modelos aborda la codificación de vibraciones de forma diferente, y esas diferencias son importantes.
MiniMax M3: la base multimodal más potente
M3 está diseñado específicamente para la dimensión visual de la programación VIBE. MiniMax introdujo el VIBE (Visual & Interactive Benchmark for Execution) con el objetivo específico de medir la capacidad de un modelo para crear aplicaciones completas y ejecutables partiendo de cero, evaluando automáticamente la lógica de interacción y la presentación visual de las aplicaciones generadas en un entorno de ejecución real.
El hecho de que M3 haya introducido esta prueba de rendimiento es revelador. MiniMax cree claramente que las pruebas de rendimiento de programación estándar —que comprueban si el código supera las pruebas unitarias— pasan por alto lo que realmente importa en la programación intuitiva: si la aplicación funciona y ¿Queda bien?
En la práctica, la capacidad de M3 para procesar vídeo e imágenes de forma nativa permite pegar una captura de pantalla de Figma o una sesión de usuario grabada y pedirle al modelo que trabaje directamente a partir de ellas. Se trata de un flujo de trabajo radicalmente diferente al de describir lo que se quiere con palabras. Para el desarrollo con gran presencia de frontend —componentes React, interfaces de usuario de aplicaciones web, diseños ’mobile-first’—, la capacidad de entrada visual de M3 transforma el proceso de formas que los modelos de texto puro no pueden igualar.
La ventana de contexto de 1 millón de tokens también es importante para la programación intuitiva de una manera específica: permite incluir en el contexto una base de código completa de tamaño medio, lo que significa que el modelo puede refactorizar entre archivos sin perder la coherencia sobre lo que está creando. Este es uno de los verdaderos modos de fallo en la programación por intuición con modelos de contexto más reducido: el código empieza a divergir de sí mismo a lo largo de los turnos, ya que el modelo pierde de vista las decisiones arquitectónicas anteriores.
Kimi K2.7 Code: el mejor codificador de vibradores con herramientas integradas
Los desarrolladores pueden subir capturas de pantalla, diagramas, maquetas de productos o incluso vídeos y pedirle a Kimi K2.7 que genere código a partir de ellos, lo cual resulta útil para el desarrollo front-end, la depuración de problemas visuales y la ingeniería inversa de interfaces.
La ventaja de K2.7 en la programación de Vibe es la integración de la herramienta MCP. Cuando se compila a través de Kimi Code CLI, el modelo puede recorrer un bucle en un terminal real: ejecutar la aplicación, comprobar la salida, leer los registros de errores e iterar, todo ello dentro de la misma sesión. Ese bucle de extremo a extremo con retroalimentación de ejecución real es lo que distingue entre ’generar código“ y ”compilar realmente el proyecto“.”
La reducción del número de tokens en el modelo 30% también es importante para la programación por intuición, precisamente porque las sesiones de este tipo suelen ser largas y de carácter conversacional. Un modelo que utilice menos tokens por paso de razonamiento puede mantener sesiones más largas a un menor coste, lo que se ajusta perfectamente al funcionamiento real de la creación iterativa de aplicaciones.
Nemotron 3 Ultra: potente, pero menos especializado
Nemotron Ultra es una herramienta muy versátil que gestiona bien las entradas multimodales, pero sus prioridades de diseño se centraron en optimizar la coherencia de los agentes y la profundidad del razonamiento, más que en la interfaz visual de la programación intuitiva. Para flujos de trabajo de programación intuitiva pura —introducir una captura de pantalla y obtener una aplicación funcional—, M3 es la opción más adecuada.
Donde Nemotron Ultra destaca en los flujos de trabajo de desarrollo es en las fases de construcción que requieren un mayor esfuerzo de arquitectura y razonamiento: el diseño de componentes del sistema, la resolución de problemas complejos de gestión de estados o el análisis de un algoritmo complicado. No se trata tanto de “crear esta interfaz de usuario a partir de esta captura de pantalla”, sino más bien de “ayudarme a diseñar la arquitectura y a analizar los casos extremos”.”
Veredicto de Vibe Coding
En cuanto a la programación intuitiva, la clasificación es la siguiente: M3 (mejor integración visual, mayor contexto, más económico) → K2.7 Code (mejor bucle de retroalimentación en tiempo real, mayor uso de herramientas) → Nemotron Ultra (excelente asistente de razonamiento, menos especializado en la creación visual de aplicaciones).
Si te dedicas principalmente a la programación orientada a la experiencia de usuario en entornos con gran presencia visual (React, Vue, dispositivos móviles), M3 es tu modelo ideal. Si desarrollas aplicaciones o sistemas con un backend complejo, en los que el ciclo de iteración implica ejecutar y probar el código real, la integración MCP de K2.7 Code te ofrece una ventaja competitiva.
Precios y análisis de la relación calidad-precio
Analicemos los cálculos reales de los costes, ya que las cifras de referencia que aparecen en los titulares solo tienen sentido en el contexto de lo que estás pagando.
| Modelo | Entrada (por cada millón de tokens) | Rendimiento (por cada millón de tokens) | Contexto | Licencia |
|---|---|---|---|---|
| MiniMax M3 (promoción) | $0.30 | $1.20 | 1 millón | Peso libre |
| MiniMax M3 (estándar) | $0.60 | $2.40 | 1 millón | Peso libre |
| Código Kimi K2.7 | $0.95 | $4.00 | 256 K | MIT modificado |
| Nemotron 3 Ultra (DeepInfra) | $0.37 | $1.08 | 1 millón | OpenMDW-1.1 |
| Claude Opus 4.8 | $5.00 | $25.00 | — | Propietario |
| GPT-5.5 | ~$10.00+ | ~$30.00+ | — | Propietario |
El análisis de costes se vuelve más matizado cuando se tiene en cuenta la eficiencia. La reducción de tokens 30% de K2.7 significa que una sesión que utiliza 1 millón de tokens de salida en K2.6 utiliza unos 700 000 en K2.7. Con una salida de $4.00/M, eso supone $4.00 frente a $2.80: no es solo una diferencia de tarifa, sino un ahorro por eficiencia. En ejecuciones prolongadas de agentes, eso se acumula de forma significativa.
El Nemotron Ultra, con una configuración de $0.37/$1,08 de DeepInfra resulta notablemente asequible para un modelo 550B con un índice de inteligencia de 47,7, lo que se debe en parte a su ventaja en cuanto al rendimiento (ser 5,9 veces más rápido implica un menor coste por tarea completada, incluso si las tarifas por token fueran las mismas).
El M3 con precio promocional es el más barato en términos absolutos, aunque el precio estándar de $0,60/$2,40 sigue ofreciendo una excelente relación calidad-precio para una ventana de contexto de un millón de tokens con codificación de primer nivel.
En la mayoría de las implementaciones en producción, el cálculo del coste real no se basa en el número de tokens por dólar, sino en el número de operaciones completadas por dólar. Crea un pequeño conjunto de pruebas representativo de tus tareas reales y calcula el precio de cada modelo en función de ello. Las tarifas anunciadas son un punto de partida, no la respuesta definitiva.
¿Quién debería utilizar cada modelo?
En realidad, estos tres modelos no compiten entre sí en el mismo ámbito de aplicación. A continuación, te ofrecemos un análisis práctico:
Elige el MiniMax M3 si:
- Necesitas la ventana de contexto más amplia para bases de código extensas, documentos largos o proyectos con varios archivos
- Tu flujo de trabajo se basa en elementos visuales (capturas de pantalla → código, maquetas → implementación)
- El coste es tu principal limitación y necesitas realizar muchas iteraciones
- Estás desarrollando agentes de navegación o procesos de investigación autónomos que aprovechan las ventajas de BrowseComp
- ¿Buscas un único modelo que gestione texto, imágenes y vídeo sin tener que cambiar de formato?
Elige el código Kimi K2.7 si:
- Estás creando flujos de trabajo integrados con MCP y necesitas la máxima fiabilidad en la ejecución de herramientas
- Estás realizando una codificación agencial a largo plazo con flujos de trabajo terminales de varios pasos
- Estás realizando la implementación a través de Kimi Code CLI y deseas la máxima integración entre el modelo y el harness
- Quieres la flexibilidad de un modelo de código abierto con una licencia MIT modificada
- La eficiencia de los tokens en sesiones largas es importante (la reducción de 30% se acumula en ejecuciones de agentes de gran envergadura)
Elige Nemotron 3 Ultra si:
- Tu empresa tiene su sede en Estados Unidos y, debido a cuestiones relacionadas con la seguridad de los datos geopolíticos, se descarten los modelos de origen chino
- Necesitas un ajuste fino del modelo con acceso completo a los datos de entrenamiento, las muestras de SFT y los entornos de RL
- La coherencia del marco es importante: estás realizando la implementación en Hermes, OpenClaw y otros entornos de pruebas al mismo tiempo
- El rendimiento es fundamental para las implementaciones de agentes simultáneos a gran escala
- Estás realizando un trabajo que requiere un gran esfuerzo de razonamiento: programación competitiva, arquitectura compleja, tareas de razonamiento de nivel de posgrado
- Quieres el mejor modelo estadounidense de peso libre, y punto
El caso extremo honesto: Si te mueves en el ámbito de las pequeñas startups o de los desarrolladores independientes, con requisitos de datos flexibles y donde el coste es tu principal limitación, el M3 a su precio promocional es realmente difícil de superar. Si te encuentras en el contexto de una empresa estadounidense regulada, Nemotron Ultra es la opción predeterminada más segura, y es lo suficientemente competitiva como para que no tengas que sacrificar mucho al evitar los modelos de origen chino.
El elefante en la habitación: la privacidad de los datos
Esta comparación estaría incompleta si no se abordara un tema que cada vez cobra más relevancia en las implementaciones empresariales.
MiniMax tiene su sede en Shanghái. En virtud de la Ley Nacional de Inteligencia de China, promulgada en 2017, todas las empresas chinas —incluida MiniMax— están legalmente obligadas a “apoyar, ayudar y cooperar con la labor de inteligencia del Estado”. Esta obligación es de carácter permanente y no ofrece a la empresa ninguna vía legal para negarse a cumplirla cuando reciba una solicitud del Gobierno.
Una investigación del Congreso de los Estados Unidos anunciada el 29 de abril de 2026 mencionaba a MiniMax junto con otros laboratorios chinos de IA; Anthropic presentó en febrero de 2026 acusaciones de «destilación a escala industrial» contra Claude; y el 26 de mayo de 2026 se admitió a trámite una demanda por derechos de autor interpuesta por Disney, Universal y Warner Bros. Discovery en relación con el producto Hailuo.
Las mismas consideraciones se aplican a Kimi K2.7 Code, de Moonshot AI (también con sede en Pekín). El valor técnico de estos modelos es indudable, pero los equipos de compras de las empresas de sectores regulados, las empresas relacionadas con la defensa o cualquier organización que maneje propiedad intelectual sensible deben tener en cuenta estas consideraciones a la hora de tomar una decisión.
El hecho de que ambos modelos sean de código abierto ofrece una posible solución: si los alojas en tu propia infraestructura y nunca envías solicitudes a las API de Moonshot o MiniMax, se puede cortar el flujo de datos hacia la infraestructura china. Que esto sea suficiente para cumplir con tus requisitos normativos es una cuestión jurídica y de riesgo específica de tu organización.
Nemotron Ultra es un modelo de NVIDIA, una empresa estadounidense, bajo la licencia OpenMDW-1.1 de la Fundación Linux. Para las empresas estadounidenses con requisitos de soberanía de datos, ese es un factor diferenciador significativo que las tablas de comparativas no reflejan.
Veredicto final
Dos semanas, tres lanzamientos históricos. La historia de la IA de peso abierto en junio de 2026 no es una de mejora gradual, sino de un cambio radical.
MiniMax M3 Es el más versátil de los tres y ofrece la mejor relación calidad-precio en términos de coste absoluto. Su contexto de 1 millón de tokens y su multimodalidad nativa le confieren un perfil único para el trabajo de desarrollo basado en elementos visuales. Las salvedades son que los resultados de las pruebas de rendimiento no están verificados y las consideraciones sobre la privacidad de los datos para su uso empresarial.
Código Kimi K2.7 es, sin lugar a dudas, el mejor modelo de codificación agentiva en el ámbito de los modelos de peso abierto en este momento. Superar a Claude Opus 4.8 en el uso de herramientas MCP como modelo de peso abierto no es una victoria insignificante en las pruebas de rendimiento: es la diferencia entre una “impresionante demostración de laboratorio” y “ser realmente mejor en lo que los agentes hacen en producción”. La mejora en la eficiencia de tokens de 30% con respecto a K2.6 hace que su ejecución a gran escala resulte significativamente más económica. La salvedad: es un especialista exclusivo en codificación, aún están por llegar las pruebas de rendimiento independientes, y las cuestiones sobre la procedencia de los datos de Moonshot AI son las mismas que las de MiniMax.
Nemotron 3 Ultra Es el modelo que se implementa cuando se necesita un modelo de peso abierto de vanguardia en el que se pueda confiar para el ámbito empresarial, que se pueda ajustar con total transparencia, que funcione más rápido que cualquier otro en su nivel de inteligencia y que cuente con la credibilidad de la cadena de suministro necesaria para que los equipos jurídicos y de compras se sientan tranquilos. Su ventaja de rendimiento de 4,8 veces respecto a Kimi K2.6 supone una auténtica transformación para las cargas de trabajo de los agentes de producción, y su consistencia independiente del entorno de ejecución en las pruebas de rendimiento de los agentes es una señal de calidad que las tablas de comparativas por sí solas no transmiten del todo.
La conclusión general que se extrae de este periodo de dos semanas es que la frontera de la IA de código abierto ha pasado de “casi tan buena como los modelos cerrados” a “mejor que los modelos cerrados en aspectos concretos que importan”. El resultado del uso de la herramienta MCP en K2.7 es la señal más clara hasta la fecha. Ya no estamos esperando a que el código abierto se ponga al día: en ciertos aspectos, ya va por delante.
¿Has probado alguno de estos modelos en un entorno de producción? Cuéntanos tu experiencia en los comentarios, sobre todo si has ejecutado sesiones de agentes en paralelo con OpenClaw o Hermes. En estos momentos, los datos del mundo real tienen más valor que cualquier prueba de rendimiento.
Para más análisis en profundidad sobre modelos de IA, síguenos tecnología.grahammiranda.com.










