Evaluando AGENTS.md: el primer estudio riguroso y los resultados son incómodos
Investigadores de ETH Zurich evaluaron el impacto real de los context files en cuatro coding agents modernos. Los datos cuestionan una práctica que muchos asumíamos beneficiosa.
Llevas meses añadiendo AGENTS.md a tus repos siguiendo las recomendaciones oficiales de Anthropic y OpenAI. Entonces esto te interesa: acaba de publicarse el primer estudio riguroso sobre el tema, y los resultados son incómodos.
Quién lo investigó
Investigadores de ETH Zurich evaluaron el impacto real de los context files (AGENTS.md, CLAUDE.md) en cuatro coding agents modernos: Claude Code con Sonnet 4.5, Codex con GPT-5.2 y GPT-5.1 Mini, y Qwen3-30B.
Los datos
| Tipo de context file | Tasa de éxito | Coste de inferencia |
|---|---|---|
Generado automáticamente (/init) | −2% de media | +20–23% |
| Escrito por humanos | +4% de media | +19% |
Por qué ocurre
El problema es la carga cognitiva. GPT-5.2 consume un 22% más de reasoning tokens cuando hay context file — señal directa de que el modelo percibe la tarea como más compleja de lo que es.
La conclusión que importa
Cuando se elimina toda la documentación existente del repo, los context files generados por LLM mejoran el rendimiento un 2.7% y superan incluso a los escritos por humanos.
El valor real de un context file está en lo que está fuera del conocimiento del modelo: tooling interno no público, convenciones específicas del proyecto, restricciones de dominio.
Si escribes un AGENTS.md, que sea quirúrgico. Si no, lo más probable es que estés pagando más por peores resultados.
Fuente: ETH Zurich study