20 de mayo de 2026

El 96% de las webs todavía no están preparada para los agentes de IA. ¿Es la tuya una de ellas?

¿Tu web está preparada para interactuar correctamente con agentes de IA? A día de hoy, los resultados en internet tienen que estar pensados para navegadores y buscadores como Google, pero también para la IA. Y según un análisis realizado sobre 200.000 dominios populares, la mayoría de webs todavía no está preparada para esto.

Pues sí: aunque el archivo robots.txt es prácticamente universal (el 78% de los sitios web lo tienen), la gran mayoría de las páginas están escritas para los rastreadores de los motores de búsqueda tradicionales, no para los agentes de IA.

Según el análisis citado solo el 4% de las páginas declaran explícitamente sus preferencias de uso para IA en el archivo robots.txt; únicamente el 3,9% ofrece contenido en formato Markdown cuando se solicita; y los estándares emergentes como las implementaciones de MCP (el estándar abierto, creado por Anthropic y ahora bajo la Linux Foundation, que permite a los modelos conectarse con datos y herramientas) apenas aparecen en una quincena de sitios de todo el dataset.

En definitiva, que el 96% de la web no está optimizada para los agentes de IA más avanzados.

¿Qué significa estar preparado para la IA?

Significa, a grandes rasgos, que una web es descubrible, accesible, cuenta con control de acceso y tiene interoperabilidad funcional, todo enfocado en agentes de IA.

Descubribilidad: Tu sitio debe ser localizable por sistemas que leen cabeceras HTTP y archivos robots.txt. Archivos como el archivo llms.txt actúan como guía de lectura para modelos de lenguaje: les dice qué hay en tu web y dónde encontrarlo, adaptado a sus limitaciones de contexto.
Accesibilidad: Cuando un agente solicita tu web con la cabecera Accept: text/markdown, debería recibir una versión limpia y sin ruido HTML. Este formato reduce hasta un 80% el número de tokens necesarios para procesar una página, lo que se traduce directamente en respuestas más rápidas para el usuario final.
Control de acceso: No es solo dejar entrar a los agentes, hay que decidir cómo interactúan con la web. Los nuevos estándares como Content Signals permiten a los propietarios de webs declarar qué usos permite y cuáles no. Es como poner un cartel en la puerta que los agentes bien comportados están obligados a leer.
Interoperabilidad funcional: A través de protocolos como MCP (Model Context Protocol) o catálogos de API estándar (RFC 9727), los agentes pueden descubrir y usar las capacidades de tu servicio directamente, sin necesidad de scraping ni documentación ad hoc. Para negocios con APIs públicas, esto representa una ventaja competitiva. Si el control de acceso es el cartel de la puerta, la interoperabilidad es el directorio del edificio: los agentes saben exactamente qué hay en cada planta y cómo llegar.

Cuatro cambios que se pueden aplicar esta semana

Preparar una web para agentes de IA no necesita rediseñarla. Son ajustes de infraestructura y contenido que un equipo técnico puede ejecutar en días.

Crear un archivo llms.txt. Es un fichero en formato Markdown que se coloca en la raíz del dominio y le dice a los modelos de lenguaje qué hace el sitio, qué contenido importa y dónde encontrarlo. Cloudflare, Vercel y Anthropic ya lo usan en sus propios dominios. Según datos de SE Ranking, solo el 8-15 % de los dominios técnicos lo tenían a principios de 2026, así que implementarlo ahora da ventaja directa.
Añadir datos estructurados con Schema.org. El marcado JSON-LD en las páginas principales (producto, FAQ, organización, artículos) permite que los agentes interpreten el contenido sin deducirlo del HTML crudo. Si la web ya trabaja bien su posicionamiento SEO, los datos estructurados refuerzan esa visibilidad en un canal que crece cada trimestre.
Revisar el robots.txt. Muchas webs bloquean por defecto los user agents de los principales modelos de IA (GPTBot, ClaudeBot, PerplexityBot). Si el objetivo es que esos sistemas recomienden o citen el negocio, bloquearlos es contraproducente. Un repaso rápido al archivo basta para confirmar que los rastreadores de IA tienen paso libre.
Servir el contenido en HTML desde el servidor. La solución más directa al problema del renderizado en cliente. Server-side rendering (SSR) o generación estática garantizan que el contenido esté en la respuesta inicial del servidor, sin depender de JavaScript. Es un cambio que, en muchos casos, pasa por la configuración del alojamiento web y del framework utilizado.

El archivo llms.txt hace por los agentes de IA lo mismo que robots.txt lleva haciendo por los buscadores desde 1994, darles un mapa del sitio antes de que empiecen a explorar.

La transición de una web pensada para humanos a una web legible también por máquinas recuerda a lo que ocurrió con el móvil hace una década. Quien adaptó su sitio a pantallas pequeñas no perdió a los visitantes de escritorio, ganó un público nuevo. Con los agentes de IA pasa algo similar, hacer legible la web para ellos no estropea nada de lo que ya funciona.