Tres modelos de codificación de vanguardia. Dos semanas. Si parpadeaste a principios de junio de 2026, te perdiste toda una generación de IA de código abierto mientras te servías otra taza de café.
Trabajo con estas herramientas a diario: agentes, flujos de trabajo de la interfaz de línea de comandos, toda esa infraestructura poco glamurosa que convierte un modelo en algo que realmente funciona. Así que esto no es un artículo más que recopila resultados de pruebas de rendimiento. Es la comparación que me hubiera gustado que alguien me hubiera dado el 14 de junio, cuando estos tres modelos se hicieron de repente realidad, se podían descargar y competían por un hueco en mi pila.
Aquí va la versión resumida para los impacientes: MiniMax M3, GLM 5.2 y Kimi K2.7-Code no son la misma herramienta con logotipos diferentes. Uno es un caballo de batalla multimodal para contextos largos, otro es una ganga en cuanto a planes de codificación con una ventana de un millón de tokens, y el tercero es un especialista en el uso de herramientas que, sin hacer mucho ruido, supera en rendimiento a modelos que cuestan cinco veces más. Si eliges mal, o bien pagarás de más o bien obtendrás menos de lo esperado. Vamos a solucionarlo.

Por qué junio de 2026 me hizo sentir como si se me cayera el suelo bajo los pies
Tómate un momento para reflexionar, porque la cronología por sí sola lo dice todo.
- 1 de junio — MiniMax lanza M3, un modelo multimodal de peso abierto con una ventana de contexto de 1 millón de tokens y una arquitectura de atención dispersa totalmente nueva.
- 12 de junio — Moonshot AI lanza Kimi K2.7-Code, un modelo especializado en programación con un billón de parámetros, en Hugging Face.
- 12 de junio — El Gobierno de Estados Unidos ordena a Anthropic que suspenda el acceso a nivel mundial a sus modelos de primer nivel Fable 5 y Mythos 5, alegando una directiva sobre control de exportaciones.
- 13 de junio — Zhipu AI (Z.ai) lanza GLM 5.2 en todos los niveles de su plan de programación y promete publicar los pesos en código abierto bajo licencia MIT en el plazo de una semana.
Así pues, en el transcurso de unos doce días, se lanzaron dos de los modelos de código abierto más potentes del mundo, llegó un tercero y los modelos más potentes de la frontera occidental fueron retirados del mercado internacional. El vacío se llenó antes de que la mayoría de los equipos se dieran cuenta de que existía.
Ese es el verdadero titular. No “China ha alcanzado a...”: ese enfoque ya está pasado de moda. La noticia ahora es que La frontera del peso abierto avanza más rápido que cualquier ciclo de adquisición, cualquier hoja de ruta trimestral o cualquier entrada de blog. Para cuando un modelo cuenta con pruebas de rendimiento independientes, su sucesor ya está en fase de entrenamiento. Si tu estrategia tecnológica parte de la base de que puedes estandarizar el uso de un único modelo durante dieciocho meses, esa estrategia ya ha fracasado.
La otra cara de la moneda es una auténtica buena noticia para los desarrolladores: ahora disponéis de un margen de maniobra del que no disponíais en 2024. Tres proveedores, todos con ganas de comerse el mercado, todos compitiendo a la baja en precios, todos ofreciendo soluciones que podéis alojar vosotros mismos. Una competencia como esta es precisamente lo que hace que la calidad suba y los costes bajen. El truco está en saber entre qué opciones estáis eligiendo realmente.
Conoce a los tres candidatos
Antes del enfrentamiento directo, una breve y sincera presentación de cada uno de ellos, incluyendo lo que la mayoría de las reseñas de lanzamientos suelen omitir: qué cifras han sido verificadas de forma independiente y cuáles son el propio proveedor quien se encarga de validar sus propios datos.
MiniMax M3: el camión multimodal de largo recorrido
MiniMax, el laboratorio de Shanghái, lanzó M3 el 1 de junio. Su característica más destacada no es una prueba de rendimiento, sino una arquitectura. M3 funciona en Atención dispersa MiniMax (MSA), que sustituye la atención total por un sistema que solo procesa los bloques relevantes de un contexto extenso. La ventaja práctica: aproximadamente una vigésima parte del esfuerzo computacional por token en un contexto de 1 millón de tokens en comparación con la generación anterior, con un precargamiento que, según se informa, es nueve veces más rápido y una decodificación más de quince veces más rápida.
Esto es más importante de lo que parece. Los modelos de contexto largo suelen fallar: son lentos, costosos y cada vez más propensos a olvidar información a medida que se profundiza en el texto. MSA es la apuesta de MiniMax de que se puede disponer de una ventana de un millón de tokens realmente útil sin que se disparen los costes ni la latencia.
M3 también es multimodal de forma nativa: admite entradas de texto, imágenes y vídeo, y genera texto como resultado. Es el único modelo de este trío capaz de leer una captura de pantalla o una grabación de pantalla sin necesidad de complementos. MiniMax registra una puntuación SWE-Bench Pro de 59,01 TP3T, lo que, según afirma, lo sitúa por delante de GPT-5.5 y Gemini 3.1 Pro, aunque por debajo de Claude Opus 4.8. En la lista de OpenRouter, el precio rondaba los $0,30 por cada millón de tokens de entrada y $1,20 por cada millón de tokens de salida en el momento del lanzamiento (una tarifa promocional; el precio estándar es aproximadamente el doble), con lecturas de caché cercanas a $0,06.
El asterisco: Esas pruebas de rendimiento se realizaron en la propia infraestructura de MiniMax con su propia estructura de agentes. Considéralas orientativas, no como una verdad absoluta, hasta que se pronuncien organismos independientes. Y si utilizas la API alojada en lugar de alojar tú mismo los pesos, recuerda que el proveedor opera bajo la jurisdicción china, lo cual es un factor a tener muy en cuenta para cualquiera que maneje datos regulados o de clientes.
GLM 5.2: el modelo de codificación con una ventana de 1 millón
El GLM 5.2 de Zhipu salió al mercado el 13 de junio y hizo dos promesas llamativas: una una ventana de contexto de 1 millón de tokens realmente útil y Peso abierto con licencia MIT que saldrá al mercado en el plazo de una semana desde su lanzamiento. Según los informes, se trata de un modelo «Mixture of Experts» de gran envergadura —una cifra muy citada es la de 744 000 millones de parámetros en total, con 40 000 millones activos—, desarrollado siguiendo el enfoque «coding-first» y con dos modos de funcionamiento (High y Max, recomendándose este último para los casos más complejos).
Lo que hace que GLM 5.2 resulte interesante para los desarrolladores en activo no es una tabla de clasificación. Es el Plan de codificación GLM. El nivel básico ronda los $18 al mes para unas 400 solicitudes a la semana, y va aumentando hasta el nivel Pro (unas 2.000 a la semana), Max (~8.000 a la semana) y un nivel Team basado en puestos, y GLM 5.2 está incluido en todos ellos sin ningún recargo respecto a la versión 5.1. Eso supone aproximadamente una décima parte de lo que cuestan los niveles premium comparables Claude Code y Claude Max. Para un desarrollador independiente o una pequeña empresa, esa relación calidad-precio es difícil de superar.
Además, se integra en tus herramientas actuales sin apenas dificultades. La compatibilidad desde el primer día incluye Claude Code, Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw y Kilo Code. Si tu agente utiliza una API de tipo OpenAI o Anthropic y te permite configurar un punto final personalizado, GLM 5.2 es un simple cambio de configuración: dirige el cliente al punto final de Z.ai y configura el modelo en glm-5.2.
El asterisco: En el momento del lanzamiento, Zhipu publicó no pruebas de rendimiento oficiales. Ni SWE-bench, ni LiveCodeBench, nada. Se han filtrado algunos resultados preliminares de terceros (una fuente lo situó en lo más alto de una prueba de rendimiento de razonamiento llamada BridgeBench, con unos 300 tokens por segundo), pero la verificación es realmente escasa por el momento. Si la calidad de un modelo es importante para la producción, hay que probarlo uno mismo antes de fiarse del marketing.
Kimi K2.7-Code: el especialista en el uso de herramientas que marca la diferencia
El K2.7-Code de Moonshot AI salió al mercado el 12 de junio y es el más específico de los tres. Se trata de un Modelo «Mixture of Experts» de un billón de parámetros con 32 000 millones de parámetros activos por token (384 expertos, 8 seleccionados más 1 compartido, 61 capas, atención MLA), un Ventana de contexto de 256 000 tokens, y un codificador de visión con 400 millones de parámetros para imágenes y vídeos. Los pesos están disponibles en Hugging Face bajo una licencia MIT modificada, y se distribuyen en formato INT4 nativo.
Lo importante es la eficiencia, no el tamaño en sí. K2.7-Code consume aproximadamente El 30% tiene menos fichas de “reflexión” que su predecesor, el K2.6 al tiempo que obtiene mejores resultados en las pruebas de rendimiento de programación de Moonshot (+21,81 TP3T en Kimi Code Bench v2, +11,01 TP3T en Program Bench y +31,51 TP3T en una suite multilingüe). Menos tokens de razonamiento para obtener mejores resultados se traduce directamente en una factura más baja en los flujos de trabajo medidos por tokens.
Pero la cifra que me dejó boquiabierto es Verificado por MCPMark: K2.7-Code obtiene una puntuación de 81,1, superando los 76,4 de Claude Opus 4.8 en tareas reales de uso de herramientas en entornos como GitHub, Postgres, el sistema de archivos y Playwright. En el caso del trabajo de tipo «agente» —en el que el modelo no escribe una función de forma aislada, sino que coordina herramientas a lo largo de múltiples pasos—, esa es la métrica que predice si tu agente realmente termina el trabajo. El precio de la API ronda los 1,95 $ por entrada y 4,00 $ por salida por cada millón de tokens, con un plan Kimi Code CLI a partir de 19 $ al mes.
Los asteriscos (dos): En primer lugar, todas las pruebas de rendimiento de K2.7 publicadas hasta ahora pertenecen a las propias suites de Moonshot; todavía no hay cifras independientes de SWE-bench Verified, LiveCodeBench o Terminal-Bench. En segundo lugar, “pensar” es siempre activo (con preservar el pensamiento (en cada paso) y no hay modo instantáneo, por lo que hay que pagar el «precio del razonamiento» en cada llamada, se quiera o no. Y el autohosting es brutal: el modelo cuántico K2.6 comparable pesa alrededor de 340 GB y requiere más de 350 GB de RAM y VRAM combinadas. Para casi todo el mundo, eso significa alquilar la API, no ser propietario del modelo.
El cara a cara, en una sola tabla
Aquí tienes la comparación reducida a lo que realmente influye en la decisión. Cuando una cifra procede del propio proveedor, lo he indicado, porque una comparación que oculta su incertidumbre no es más que marketing disfrazado de tabla comparativa.
| GLM 5.2 | MiniMax M3 | Kimi K2.7-Code | |
|---|---|---|---|
| Laboratorio | Zhipu AI (Z.ai), Pekín | MiniMax, Shanghái | Moonshot AI, Pekín |
| Publicado | 13 de junio de 2026 | 1 de junio de 2026 | 12 de junio de 2026 |
| Ventana de contexto | 1 millón de tokens | 1 millón de tokens | 256 000 tokens |
| Arquitectura | MoE (aprox. 744 000 millones / 40 000 millones de usuarios activos, según datos oficiales) | MoE + Atención dispersa (MSA) | MoE, 1 T en total / 32 000 millones activos |
| Multimodal | No (programación primero) | Sí: texto, imagen, vídeo | Sí — imagen y vídeo a través del codificador de vídeo |
| Licencia | MIT (peso libre, aproximadamente una semana después del lanzamiento) | Peso abierto prometido (aprox. 10 días) | MIT modificado (peso en vivo) |
| Fuerza del titular | 1 MB de datos + plan de telefonía móvil económico | Multimodal con contexto amplio + velocidad | Uso de herramientas / MCP, eficiencia de los tokens |
| Señal de precios | Plan de ~1 TP4T18 al mes (aproximadamente una décima parte de los niveles de Claude) | ~$0,30/$1,20 por 1M (oferta promocional) | ~$0,95/$4,00 por cada millón; $19 al mes CLI |
| Estado de la referencia | No es oficial en el momento del lanzamiento | Gestionado por el proveedor (59% SWE-Bench Pro) | Gestionado por el proveedor (81,1 MCPMark, supera a Opus por 4,8 puntos) |
| La mayor captura | Sin verificar, sin puntuaciones independientes | Alojado bajo jurisdicción china | Siempre pensando en el futuro; más de 340 GB para alojar en mis propios servidores |
Una clasificación de modelos generada tras las pruebas prácticas situaba el panorama general más o menos así: Fable 5 a la cabeza, seguido de Kimi K2.7, luego Opus 4.8 a la par con GLM 5.2, después GPT-5.5 y, por último, MiniMax M3; pero hay que tomárselo con mucha cautela. Es la clasificación de un solo evaluador, basada en un conjunto de tareas, en una semana en la que la mitad de estos modelos no tenían cifras verificadas. Tu carga de trabajo es la única clasificación que cuenta.
Entonces, ¿qué papel juega el “vibe coding” en todo esto?
Vale la pena hacer una pausa aquí, ya que este término se utiliza a la ligera. Codificación de vibraciones Es el flujo de trabajo en el que describes lo que quieres en un lenguaje sencillo y dejas que el modelo escriba, ejecute y corrija el código; tú te encargas de orientarlo según tu intención y tus intuiciones, en lugar de escribir cada línea tú mismo. Para mucha gente (yo incluido, en numerosos proyectos), esta es ahora la forma habitual de desarrollar software.
Ya no es una idea marginal. Zhipu tituló literalmente el artículo técnico sobre el GLM-5 “De la programación intuitiva a la ingeniería agentiva” — Los propios laboratorios consideran que esta es la trayectoria: pasar de una fase de prototipado informal y coloquial a una ingeniería estructurada y autónoma capaz de funcionar durante horas sin supervisión.
Pero hay algo que nadie te cuenta: El mejor modelo para interpretar el ambiente depende totalmente de la fase del ambiente en la que te encuentres.
- Prototipos iniciales, exploratorios, del tipo “hazme algo” — cuando se trabaja a un ritmo frenético, se van añadiendo capturas de pantalla y se cambia de opinión cada dos por tres — se necesita un modelo económico, rápido y flexible que admita entradas multimodales. MiniMax M3 aquí es donde destaca. Su bajo coste en tokens te permite probar diferentes opciones sin remordimientos, y el hecho de poder introducir una captura de pantalla del diseño en lugar de describirlo supone una auténtica mejora en el flujo de trabajo.
- Programación con el estilo de los grandes proyectos — “Lee todo mi repositorio y refactoriza la capa de autenticación” — es donde la ventana de contexto es fundamental. GLM 5.2 Una ventana de un millón de tokens (y ese plan de codificación tan económico) te permite tener todo el proyecto a la vista sin tener que volver a explicarlo constantemente, lo cual es la principal fuente de fricción en el trabajo de los agentes.
- La parte seria: configuraciones orientadas a agentes con un horizonte a largo plazo y un uso intensivo de herramientas que afecta a tu base de datos, tu sistema de archivos y tu historial de Git a lo largo de cientos de pasos, necesita un modelo que no pierda el hilo a mitad de la tarea. Kimi K2.7-Code’s Las puntuaciones de uso de herramientas están pensadas precisamente para esto. Cuando la tarea no consiste tanto en “escribir una función” como en “gestionar toda mi cadena de herramientas para lanzar una funcionalidad”, las llamadas fiables a las herramientas siempre superan a un ejemplo de código más elegante.
La incómoda verdad: la programación intuitiva amplifica cualquier modelo que le proporciones. Un buen modelo con un contexto adecuado convierte una idea vaga en un programa que funciona. Uno deficiente lo convierte en un montón de errores que no has escrito tú y que no entiendes. Elige el modelo para el escenario, no el bombo publicitario.

¿Cuál deberías usar realmente?
Dejando de lado las evasivas diplomáticas. Así es como yo abordaría la decisión.
Elige el MiniMax M3 si Tu trabajo se basa en contextos extensos y es multimodal: revisar grandes bases de código, razonar a través de archivos o cualquier flujo de trabajo en el que una captura de pantalla, un diagrama o un vídeo formen parte de los datos de entrada. También es la que elegiría cuando el coste por iteración es la restricción determinante, ya que la arquitectura de atención dispersa mantiene el trabajo de contexto extenso rápido y económico. Solo tienes que alojar tú mismo los pesos para cualquier dato sensible.
Elige GLM 5.2 si Si buscas la mayor capacidad por euro y trabajas con un código fuente extenso, este plan de programación —que cuesta aproximadamente una décima parte del precio de la versión premium de Claude, incluye una ventana real de 1 millón de tokens y ofrece compatibilidad inmediata y sin complicaciones con Claude Code y otras herramientas similares— lo convierte en la opción predeterminada ideal para desarrolladores independientes y equipos reducidos. La pega es la confianza: estás confiando en él antes de que salgan las comparativas independientes, así que haz prototipos con él antes de apostar por él con un plazo de entrega.
Elige Kimi K2.7-Code si Estás creando agentes autónomos que coordinan herramientas —servidores MCP, bases de datos, navegadores, sistemas de archivos— durante sesiones prolongadas. Su rendimiento en el uso de herramientas es el resultado más destacado de toda esta comparación, y la mejora en la eficiencia de los tokens reduce directamente tus costes de funcionamiento. Paga la tarifa de la API en lugar de lidiar con el requisito de autohospedaje de 340 GB, y acepta que el procesamiento está siempre activo.
O —y esto es lo que hago yo— utilizo las tres. Organización por tareas. Iteraciones multimodales económicas en M3, refactorizaciones de gran envergadura en GLM 5.2 y ejecuciones de agentes con gran uso de herramientas en Kimi. Herramientas como Kilo Code, OpenCode y Claude Code permiten cambiar de proveedor con un simple cambio de configuración, sin necesidad de realizar una migración. En un mercado que evoluciona a este ritmo, La portabilidad gana a la fidelidad. Organiza tu flujo de trabajo de tal manera que puedas cambiar de modelo en una tarde, y así convertirás el caos de junio de 2026 de una amenaza en una ventaja.
Una advertencia sobre la fiabilidad de estas cifras
Una breve reflexión, porque te ahorrará muchos problemas. Casi todas las pruebas de rendimiento de este artículo proceden de los propios fabricantes. GLM 5.2 se lanzó sin ninguna de ellas. Incluso las suites públicas más prestigiosas tienen problemas de contaminación: SWE-Bench Pro existe, en parte, porque algunas pruebas antiguas se filtraron en los datos de entrenamiento e inflaron las puntuaciones.
Nada de eso significa que estos modelos sean malos. Significa que el único punto de referencia que importa es tu propio repositorio, tus propias tareas y tu propia definición de “terminado”. Prepara una pequeña prueba repetible —tres o cuatro tickets reales de tu lista de tareas pendientes— y comprueba cada modelo con ella antes de dar el paso. Una tarde de pruebas te dirá más que todas las entradas de blog del día del lanzamiento juntas, incluida esta.
Preguntas frecuentes
¿GLM 5.2 es realmente gratuito? Los modelos están sujetos a la licencia del MIT y, una vez publicados, se pueden descargar y alojar de forma gratuita. El plan de alojamiento de GLM es de pago, con precios a partir de aproximadamente 1 TP4T18 al mes; sin embargo, eso supone más o menos una décima parte de lo que cuestan los planes premium equivalentes de Claude, y GLM 5.2 está incluido en todos los niveles del plan sin coste adicional.
¿Cuál es la mejor opción específicamente para programar en Vibe? No hay un único ganador. MiniMax M3 es ideal para la creación rápida y económica de prototipos multimodales; GLM 5.2, para la programación intuitiva dentro de grandes bases de código gracias a su ventana de 1 millón de tokens; Kimi K2.7-Code, para desarrollos de agentes serios y con gran cantidad de herramientas. Adapta el modelo a la fase en la que te encuentres.
¿Puedo utilizarlos con Claude Code? Sí. GLM 5.2 es compatible con Claude Code desde el primer día: solo hay que dirigir el cliente al punto de acceso de Z.ai y configurar el modelo para glm-5.2. Tanto Kimi como MiniMax ofrecen API compatibles con OpenAI y Anthropic, por lo que la mayoría de las herramientas de programación de agentes las aceptan como un punto de conexión personalizado con un simple cambio de clave.
¿Cuál tiene la ventana de contexto más grande? Tanto GLM 5.2 como MiniMax M3 ofrecen 1 millón de tokens. Kimi K2.7-Code ofrece 256 000: es más pequeño, pero sigue siendo lo suficientemente grande para la mayoría de los trabajos con un solo repositorio.
¿Son fiables los resultados de las pruebas de rendimiento? Tómalos como una referencia. A mediados de junio de 2026, la mayoría de las puntuaciones publicadas proceden de pruebas realizadas por los propios proveedores en la infraestructura de sus laboratorios, y GLM 5.2 se lanzó sin pruebas de rendimiento oficiales. Realiza tu propia evaluación con tareas reales antes de implementarlo en producción.
¿Puedo ejecutar alguno de estos programas en un ordenador normal? No son los pesos totales. Kimi K2.7-Code necesita aproximadamente más de 350 GB de RAM y VRAM combinadas para ejecutarse en un servidor propio, y los demás también son modelos MoE de gran tamaño. Para la mayoría de la gente, la API alojada o un proveedor gestionado es la opción más práctica; el autoalojamiento es para equipos con presupuestos de GPU considerables o requisitos estrictos de residencia de datos.
En resumen
En dos semanas de junio de 2026, los desarrolladores recibieron tres modelos de programación de peso abierto muy sólidos, un sector que ahora es realmente competitivo en cuanto a precios, y una clara señal de que el ritmo no se está ralentizando. MiniMax M3 es tu motor de creación de prototipos multimodal, de contexto amplio y rentable. GLM 5.2 es la mejor opción en cuanto a rendimiento por euro para trabajar con bases de código de gran tamaño, siempre y cuando te fíes de ella antes de que se publiquen los resultados de las pruebas de rendimiento. Kimi K2.7-Code es el especialista en el uso de herramientas para construcciones realmente agentivas.
Lo más inteligente no es elegir un favorito, sino crear un flujo de trabajo lo suficientemente flexible como para utilizar el que mejor se adapte a la tarea que tengas entre manos y cambiar al siguiente modelo cuando, inevitablemente, salga al mercado el mes que viene. En un mercado tan dinámico, la adaptabilidad es la estrategia.
Si estás tratando de averiguar cómo encaja esto en tu propio entorno —ya sea integrando estos modelos en un agente de programación, incorporando la automatización mediante IA a tu negocio o simplemente buscando una segunda opinión objetiva antes de dar el paso—, ese es precisamente el tipo de trabajo que realizo en Graham Miranda. Ponte en contacto con nosotros y construyamos algo que perdure más allá del ciclo de las noticias.
¿Tienes algún modelo que creas que debería incluirse en esta comparación, o una carga de trabajo que no sabes cómo distribuir? Déjalo en los comentarios: los leo y actualizo estas guías a medida que evoluciona el sector (lo cual, últimamente, ocurre constantemente).










