Evaluando AGENTS.md: el primer estudio riguroso y los resultados son incómodos

Llevas meses añadiendo AGENTS.md a tus repos siguiendo las recomendaciones oficiales de Anthropic y OpenAI. Entonces esto te interesa: acaba de publicarse el primer estudio riguroso sobre el tema, y los resultados son incómodos.

Quién lo investigó

Investigadores de ETH Zurich evaluaron el impacto real de los context files (AGENTS.md, CLAUDE.md) en cuatro coding agents modernos: Claude Code con Sonnet 4.5, Codex con GPT-5.2 y GPT-5.1 Mini, y Qwen3-30B.

Los datos

Tipo de context file	Tasa de éxito	Coste de inferencia
Generado automáticamente (`/init`)	−2% de media	+20–23%
Escrito por humanos	+4% de media	+19%

Por qué ocurre

El problema es la carga cognitiva. GPT-5.2 consume un 22% más de reasoning tokens cuando hay context file — señal directa de que el modelo percibe la tarea como más compleja de lo que es.

La conclusión que importa

Cuando se elimina toda la documentación existente del repo, los context files generados por LLM mejoran el rendimiento un 2.7% y superan incluso a los escritos por humanos.

El valor real de un context file está en lo que está fuera del conocimiento del modelo: tooling interno no público, convenciones específicas del proyecto, restricciones de dominio.

Si escribes un AGENTS.md, que sea quirúrgico. Si no, lo más probable es que estés pagando más por peores resultados.

Fuente: ETH Zurich study