En los últimos meses, eso de “codificación de vibraciones» se ha convertido en una etiqueta para describir una práctica cada vez más común: delegar grandes partes del desarrollo a asistentes de IA y limitarse a guiar, revisar y aceptar cambios. En ese escenario, el equipo Qwen de Alibaba vuelve a colocarse en el centro de la conversación con Qwen3-Coder-Siguienteun modelo especializado en programación que busca combinar dos cosas que normalmente tiran en direcciones opuestas: profundidad de razonamiento y costes contenidos.
Según lo publicado por VentureBeat y el propio informe técnico del equipo, el modelo se ofrece bajo licencia. apache 2.0con pesos disponibles en abrazando la cara. Ese detalle no es menor: facilitar el uso comercial tanto a grandes empresas como a desarrolladores independientes, algo clave cuando el objetivo no es solo “probar”, sino integrar el modelo en flujos reales de ingeniería.
80.000 millones de parámetros, pero con “modo ahorro” activado
Una primera vista, Qwen3-Coder-Siguiente Impresiona por su tamaño total: 80B parámetros. La parte interesante llega cuando se explica su arquitectura. Mezcla de expertos (MoE) “ultra-dispersa”: en cada ejecución activa alrededor de 3B parámetros. Es como tener una biblioteca enorme con especialistas para cada tema, pero enciende solo las luces de la sala que necesitas en ese momento. En vez de pagar siempre la factura completa de un modelo denso gigante, la ejecución se parece más al costo de un modelo mucho más pequeño, al menos en términos de cómputo por paso.
La promesa aquí no es “ser el más grande”, sino cambiar la economía del asistente: mantener una capacidad amplia para entender repositorios complejos sin que el rendimiento caiga en picado cuando le pides tareas de escala real.
El cuello de botella del contexto: cuando leer todo el repo era inviable
Si has trabajado con asistentes de código, habrás visto el problema típico: funcionan bien en un archivo, se vuelven torpes cuando el cambio exige entendimientos cruzadas, convenciones internas o una arquitectura repartida en decenas de carpetas. Parte de ese límite tiene nombre técnico: la atención tradicional de los Transformers escala de forma cuadrática con la longitud del texto. En cristiano, cuanto más “lees”, más se dispara el coste.
Aquí el equipo Qwen apunta alto con una ventana de contexto de 262.144 fichas. Para imaginarlo, piensa en intentar entender una novela larga con notas al margen, referencias y personajes que reaparecen cada cien páginas. Un asistente con contexto pequeño “olvida” y rellena huecos; uno con contexto grande puede seguir el hilo sin inventarse capítulos.
La clave, según el informe, es una arquitectura híbrida que combina DeltaNet cerrado estafa Atención cerrada. La idea de DeltaNet funciona como una alternativa de complejidad lineal para sostener estado a lo largo de secuencias muy largas, evitando la “pared de memoria” que aparece con la atención estándar. Emparejado con el Ministerio de Educación ultradisperso, Qwen defiende que puede lograr un rendimiento muy alto en tareas de repositorio, con una mejora teórica importante de rendimiento frente a modelos densos de capacidad similares.
Para reducir efectos indeseados en el entrenamiento con contextos largos, mencionan el uso de Empaquetadura de mejor ajuste (BFP)una estrategia pensada para mantener eficiencia sin caer en truncados o empalmes torpes que acaben confundiendo al modelo. Traducido a una metáfora cotidiana: no es lo mismo guardar ropa doblada por categorías que meterla a presión en una maleta; en el segundo caso, luego no encuentras nada y terminas “adivinando” dónde estaba.
“Next” significa entrenar para actuar, no solo para contestar
Muchos modelos de código se entrenaron históricamente con pares de “texto-código”: leen una instrucción, generan un fragmento y listo. El problema es que desarrollar software real se parece más a un circuito de prueba y error: ejecutas, falla una prueba, corriges, vuelves a ejecutar, ajustas un detalle que no estaba en el enunciado. Qwen describe Qwen3-Coder-Siguiente como un modelo “agent-first”, entrenado con una tubería masiva de tareas verificables.
El informe técnico habla de unas 800.000 tareas de programación verificables, construidas a partir de escenarios de corrección de errores y cambios inspirados en pull request de GitHub, con entornos ejecutables. Aquí entra una pieza de infraestructura llamada megaflujomontado sobre Kubernetes de Alibaba Cloud, que organiza cada tarea como un flujo con ejecución del agente, evaluación y posprocesado. Si el código falla en las pruebas o rompe el contenedor, el sistema devuelve retroalimentación y el modelo aprende en bucle mediante técnicas de ajuste intermedio y refuerzo.
Esta parte es importante porque mueve la discusión de “qué bien completa líneas” a “qué bien se recupera cuando la realidad le lleva la contraria”. Es la diferencia entre alguien que te dicta una receta de memoria y alguien que cocina contigo, prueba la salsa y corrige la sal cuando toca.
Herramientas, formatos y más idiomas de programación.
En el material compartido se insiste en que el modelo amplía su soporte hasta 370 lenguajes de programaciónfrente a cifras bastante menores en iteraciones previas del equipo. En la práctica, esto suele impactar en dos frentes: comprender proyectos antiguos o muy especializados, y no romper cuando aparecen mezclas de lenguajes en un mismo repositorio.
También se introduce un formato de llamada a herramientas estilo XML, denominado qwen3_codificadorpensado para manejar argumentos largos y “pesados en strings” sin el dolor habitual de comillas escapadas y JSON anidado. Quien haya peleado con una orden compleja para una herramienta de terminal sabe lo fácil que es que una coma fuera de sitio arruine toda la ejecución; un formato más robusto puede significar menos fricción cuando el modelo actúa como agente y no solo como generador de texto.
Especialistas para web y UX, destilados en un modelo único
Otro punto distintivo es el uso de “expertos” internos: modelos especializados en dominios concretos, como desarrollo web y experiencia de usuario (UX). El objetivo no es terminar con una familia fragmentada imposible de desplegar, sino entrenar especialistas, llevarlos al máximo y luego “destilar” sus capacidades de vuelta al modelo MoE principal.
En el caso del experto de web, el enfoque incluye verificación visual: ejemplos renderizados en un entorno controlado con Chromium bajo Playwright, y, cuando se trata de React, un servidor Vite para asegurar dependencias bien inicializadas. Un modelo de lenguaje de visión evalúa la integridad del diseño y la calidad de la interfaz. Esta idea suele gustar a los equipos de producto porque acerca el entrenamiento a algo que importa en producción: no basta con que compilar, tiene que verse bien y comportarse como se espera.
Para el experto de UX, el foco está en seguir formatos de herramientas y plantillas de chat diversas, orientadas a entornos tipo CLI/IDE. El resultado buscado es que, cuando lo conectas a tu herramienta real, no “se pierda” por detalles de esquema o por convenciones específicas del stack.
Benchmarks y seguridad: competir sin olvidar los agujeros típicos
En evaluaciones con el andamiaje SWE-Agent, el equipo reporta un 70,6% en SWE-Bench verificadouna cifra competitiva en el panorama actual y notable si se considera el recuento de parámetros activos por paso. En seguridad, aparece un dato llamativo en Banco de códigos de seguridad: en escenarios de generación de código, Qwen3-Coder-Next superaría a Claude-Opus-4.5 en reparación de vulnerabilidades (61,2% frente a 52,5%, según los resultados difundidos por Qwen). También se menciona un desempeño sólido sin “pistas” específicas de seguridad, señal de que el entrenamiento agéntico con retroalimentación pudo internalizar patrones defensivos comunes.
En evaluaciones multilingües de seguridad, se cita Valor CWE con un func-sec@1 de 56,32%, por delante de otras alternativas comparadas en el informe. En la práctica, esto apunta a un asistente que no solo te entrega una función que “pasa”, sino una que evita algunos tropiezos clásicos: validación insuficiente, concatenaciones peligrosas, permisos mal planteados o manejo deficiente de errores.
Qué cambia para equipos y desarrolladores: contexto y rendimiento como palancas
En un momento en el que el mercado se llena de anuncios, desde herramientas y arneses para agentes hasta aplicaciones de escritorio para coordinar múltiples tareas, Qwen pone el énfasis en dos palancas: contexto largo y velocidad de ejecución. Si un agente puede leer buena parte de tu repositorio, proponer cambios, ejecutarlos en un contenedor y volver con una corrección verificable sin tardar una eternidad, el flujo de trabajo cambia. La utilidad no depende solo de “saber mucho”, sino de poder iterar con rapidez.
Visto así, el mensaje de fondo del equipo Qwen es claro: no todo se arregla haciendo el modelo más grande. escalar el entrenamiento agentico y la verificación en entornos reales puede ser igual o más determinante que sumar parámetros. Para quien decide tecnología en una empresa, la combinación de licencia apache 2.0despliegue con huella activa pequeña y foco en tareas de repositorio suena a una propuesta pensada para producción, no solo para demos.



