Tu web ante los bots de IA: lo que crawlan, lo que ignoran y lo que deberías controlar ya

Hace dos años, el único bot que nos preocupaba seriamente era Googlebot. Hoy son decenas: GPTBot de OpenAI, ClaudeBot de Anthropic, PerplexityBot, Google-Extended, Applebot-Extended, Bytespider, CCBot, Amazonbot, FacebookBot, cohere-ai, Meta-ExternalAgent, y así hasta una lista que sigue creciendo cada mes. Cada uno de ellos visita tu web, decide qué leer, qué guardar y qué ignorar, y con lo que guarda construye las respuestas que les dan a tus potenciales clientes cuando preguntan sobre lo que tú vendes. Y lo más importante: tú puedes controlar bastante más de lo que crees sobre qué hacen con tu contenido, pero solo si sabes dónde mirar. Este artículo es una guía directa sobre cómo gestionar los bots de IA en tu web: lo que están crawling, lo que deberías bloquear, lo que deberías permitir y cómo enterarte cuando algo cambia.

Infografía · Bots de IA en tu web
Las 3 categorías de bots que visitan tu sitio en 2026

Entrenamiento

Toman tu contenido para datasets que alimentan futuros modelos.

GPTBot
ClaudeBot
Google-Extended
Applebot-Extended
CCBot
Bytespider

Respuesta tiempo real

Leen tu web en el momento exacto en que alguien pregunta al chatbot.

PerplexityBot
ChatGPT-User
Claude-User
OAI-SearchBot

Índice generativo

Construyen índices propios para motores de búsqueda conversacionales.

PerplexityBot
Meta-ExternalAgent
Amazonbot

Quiénes son los bots de IA que visitan tu web ahora mismo

Primero lo básico: no todos los bots son iguales ni tienen el mismo propósito. Hay tres categorías que conviene distinguir claramente porque la decisión de bloquearlos o permitirlos es distinta para cada una.

Bots de entrenamiento

Son los que recogen tu contenido para incluirlo en el dataset con el que los modelos de IA se entrenan. Lo que crawlan hoy puede aparecer en las respuestas de un modelo en 6-12 meses, cuando ese modelo se publique o se actualice. Los principales son GPTBot (OpenAI), ClaudeBot (Anthropic, aunque técnicamente se llama anthropic-ai en algunas variantes), Google-Extended (entrenamiento separado de Googlebot para modelos Gemini), Applebot-Extended, cohere-ai, CCBot (Common Crawl, que alimenta a muchos modelos), Bytespider (ByteDance/TikTok) y Amazonbot.

Bots de respuesta en tiempo real

Estos son los que, cuando un usuario hace una pregunta al chatbot, van a tu web en ese momento a leer tu contenido para responder. No lo usan para entrenar, lo usan para contestar ahora mismo. Aquí están PerplexityBot, ChatGPT-User (cuando ChatGPT navega la web por ti), Claude-User, OAI-SearchBot y similares. Bloquearlos significa que esos motores no pueden responder con tu información cuando alguien pregunta por ti o tu sector.

Bots de índice generativo

Son los que están construyendo índices propios para motores de búsqueda generativos. Se parecen a Googlebot pero alimentan experiencias conversacionales, no SERPs clásicos. PerplexityBot actúa también así, y Meta-ExternalAgent es el más reciente en este espacio.

Qué está haciendo cada bot en tu web ahora mismo (y cómo saberlo)

Antes de tomar decisiones, lo primero es saber qué está pasando. La mayoría de webs no sabe ni qué bots entran, cuántas páginas leen, qué tipo de contenido se llevan. Se puede saber, y es más fácil de lo que parece.

Cómo ver los bots en tus logs

Si tienes acceso a los logs del servidor (access.log en Apache/Nginx, o el panel de tu hosting), puedes filtrar por user-agent. Los bots se identifican con nombres claros. Por ejemplo, una entrada típica de GPTBot se ve así:

66.249.x.x - - [10/Apr/2026:12:34:56 +0200] "GET /servicios/auditoria-seo HTTP/1.1" 200 34521 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)"

Con un análisis básico de 30 días de logs, te puedes hacer una idea de qué bots entran, con qué frecuencia y a qué páginas. Si no tienes acceso, hay plugins para WordPress (Wordfence, WP Activity Log) y soluciones para otros CMSs que te dan la misma información. En proyectos donde lo hemos medido, una web mediana recibe entre 500 y 5.000 visitas de bots de IA al mes, algo que hasta 2023 era impensable.

Qué páginas están leyendo

Un patrón que vemos: los bots de IA leen con especial frecuencia páginas de servicios, landings de producto, blog posts con preguntas claras y la página de “sobre nosotros”. No van tanto a páginas legales, checkout, paneles privados o recursos estáticos. Esto tiene sentido: están buscando contenido que responda a preguntas reales de usuarios.

Cuánto contenido se llevan

Un dato curioso que puedes ver en los logs es el tamaño de respuesta. Cuando un bot lee una página completa de 50KB, se lleva toda esa información. Si tu contenido principal está tras JavaScript o requiere interacción, muchos bots se quedan con una versión degradada. Esto es importante para decidir cómo servir tu contenido (lo vemos en una sección más abajo).

robots.txt: tu primera línea de control

El robots.txt sigue siendo el mecanismo estándar para indicarle a un bot qué puede y qué no puede visitar. Los grandes bots de IA lo respetan (OpenAI, Anthropic, Google, Meta, Apple) y los bots maliciosos o con dudosa ética lo ignoran (lo veremos luego). Pero para gestionar la mayoría del tráfico automático legítimo, es tu herramienta principal.

Sintaxis básica para bloquear bots de IA

Un ejemplo de robots.txt que bloquea los bots de entrenamiento principales pero permite los de respuesta en tiempo real sería:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: PerplexityBot
Allow: /

User-agent: ChatGPT-User
Allow: /

Este ejemplo ilustra una decisión concreta: “no quiero que entrenen con mi contenido, pero sí quiero que me citen cuando alguien pregunta ahora mismo”. Es una postura muy común en negocios que crean contenido propio (medios, consultoras, agencias) y no quieren que su knowhow alimente modelos gratis pero sí quieren tráfico de referencia desde esos modelos cuando alguien los consulta.

Error típico: bloquear todo sin pensar

Una de las cosas más peligrosas que hemos visto en clientes es gente que, asustada por el discurso de “la IA me roba contenido”, bloquea indiscriminadamente todos los bots de IA con un User-agent: * Disallow: / orientado. Esto significa cero citas en AI Overviews, cero menciones en ChatGPT, cero tráfico desde Perplexity. Para un negocio que tiene interés en captar cliente B2B o consideración compleja, cerrar todas las puertas es autodestructivo. La decisión correcta casi nunca es bloquearlos todos: es elegir cuáles bloqueas y cuáles no, según tu modelo de negocio.

Error típico: copiar el robots.txt de otro

Cada negocio tiene su lógica. El robots.txt de un medio con muro de pago no sirve para un e-commerce, que no sirve para una agencia de servicios, que no sirve para una base de datos especializada. Copiar el de un tercero sin entender el razonamiento es garantía de acabar bloqueando o permitiendo cosas que no querías.

Cuatro estrategias sobre bots de IA según tu tipo de negocio

No hay una respuesta única a qué hacer. Hay estrategias distintas según qué vendes y cómo monetizas. Estas son las cuatro más habituales.

Estrategia 1: “Contenido como propiedad intelectual” (bloqueo de entrenamiento)

Si tu modelo de negocio depende de producir contenido original que a otros les costaría mucho replicar (consultoría, investigación, reportajes originales, bases de datos), tiene sentido bloquear los bots de entrenamiento para que no metan tu contenido en datasets. Permites, sin embargo, los de respuesta en tiempo real, porque cada cita es potencialmente un cliente. Esta es la estrategia que siguen la mayoría de medios de referencia y consultoras que venden investigación propia.

Estrategia 2: “Máxima visibilidad” (permitir todo)

Si tu negocio depende del descubrimiento y cada mención es oro, abrir las puertas a todos los bots es lo razonable. Servicios locales, e-commerce con mucho volumen, pymes que necesitan captar leads. Aquí el robots.txt es permisivo y además te aseguras de que tu contenido sea fácilmente legible (contenido en HTML plano, no solo JavaScript). En estos negocios la visibilidad en respuestas de IA compensa con creces la “pérdida” de que alguien se entrene con tu contenido.

Estrategia 3: “Híbrido por sección”

Una estrategia inteligente y poco usada: permitir bots de IA en tu blog y páginas informativas (porque quieres ser citado) y bloquearlos en tus páginas de producto o precios detallados (porque no quieres que terceros las usen para competir o comparar). El robots.txt permite discriminar por ruta. Esto requiere pensar un poco, pero la libertad que te da es enorme.

Estrategia 4: “Wait and see con monitorización”

Si no tienes claro qué hacer, la posición por defecto razonable es no bloquear nada pero sí monitorizar qué están haciendo los bots. En 6 meses, con datos reales en la mano, tomas una decisión informada. Esta es nuestra recomendación para la mayoría de pymes con las que trabajamos: primero entender, luego decidir. Bloquear por miedo genérico casi siempre cuesta más de lo que ahorra.

Más allá de robots.txt: llms.txt y las señales positivas

Una novedad de los últimos meses: llms.txt. Es una especie de “robots.txt para modelos de lenguaje”, pensado para darle a los modelos de IA una guía curada de tu sitio: qué secciones son importantes, qué páginas son representativas, qué información estructurada ofreces. A diferencia de robots.txt (que es un filtro negativo, “esto no”), llms.txt es un filtro positivo (“esto sí, y así lo resumo”).

A día de hoy (abril 2026), llms.txt no es un estándar oficial aceptado por todos los grandes modelos, pero algunos lo están empezando a leer y otros se están planteando implementarlo. El esfuerzo de generarlo es bajo si tu web está bien estructurada, y puede darte una ventaja competitiva sobre webs que solo tienen robots.txt. Nuestra recomendación: si tu competencia todavía no lo tiene y tu web produce contenido relevante para tu sector, implementarlo ya. La barrera de entrada es mínima y el retorno potencial es alto.

Cómo hacer tu contenido legible para bots de IA

Aunque permitas los bots, si tu contenido está detrás de JavaScript pesado, tras un login, o cargado dinámicamente con llamadas a APIs sin server-side rendering, muchos bots no van a poder leerlo completo. Esto es un problema técnico que se puede resolver pero que casi ninguna web revisa. Estas son las comprobaciones básicas.

Server-side rendering o pre-rendering. Si tu sitio es un SPA React/Vue/Angular, asegúrate de que el contenido principal se sirve en el HTML inicial, no solo tras ejecución de JS. Frameworks como Next.js, Nuxt, Astro o SvelteKit hacen esto por defecto en sus modos estándar.
Contenido sin depender de interacciones. Acordeones, tabs, “ver más” colapsados: lo que solo se carga al hacer clic, muchos bots no lo leen. Si tienes información relevante escondida tras un botón, estás perdiendo citas.
Metadatos estructurados. Schema.org es tu forma de decirle al bot “esto es un producto, esto es un precio, esto es un autor, esto es una FAQ”. Los bots de IA están leyendo schema cada vez más, y las páginas con schema bien puesto tienen más probabilidad de ser citadas con información precisa.
Títulos y estructura clara. Un H1, H2s y H3s coherentes, párrafos legibles, listas cuando procede. Los modelos extraen información mejor de textos bien estructurados. La buena noticia es que esto es exactamente lo que pide también el SEO clásico: está alineado.
Contenido en el idioma del usuario objetivo. Si tu negocio es local, tu contenido principal debería estar en el idioma del mercado. Los bots no traducen automáticamente para citarte en otro idioma; simplemente no te citan si no estás en ese idioma.

Los bots maliciosos y los scrapers agresivos: otra historia

Hasta ahora hemos hablado de los bots legítimos que respetan robots.txt. Pero existe otra capa: scrapers agresivos, bots de análisis competitivo no autorizado, crawlers que ignoran todas las reglas y que se pueden llevar gigas de tu contenido al día sin permiso. Estos no los paras con robots.txt: los paras con medidas activas.

Rate limiting en el servidor. Configura tu servidor (o Cloudflare, Sucuri, similar) para limitar peticiones por IP en un periodo corto. Un usuario humano no hace 200 peticiones a tu web en 30 segundos.
Cloudflare Bot Management. Si usas Cloudflare, tiene un módulo específico para bots que identifica y bloquea patrones maliciosos con ML. Un plan básico te cubre bastante y lo puedes ajustar.
Detección por user-agent falso. Muchos bots maliciosos mienten sobre quiénes son. Una regla simple es verificar que las peticiones que dicen ser de “Googlebot” vengan realmente de rangos IP de Google. Los que no, fuera.
Honeypots. Un enlace oculto en tu HTML que un humano nunca haría clic pero un bot siguiendo enlaces sí. El que lo toca, bloqueas. Es una técnica defensiva clásica y sigue funcionando bien.

La diferencia práctica es importante: robots.txt es para decirle “esto no” a bots que son educados; el rate limiting y el bloqueo activo es para protegerte de los que no lo son. Las dos capas no son excluyentes, se complementan.

Cómo auditamos esto en una auditoría SEO

Cuando entra un cliente nuevo, una de las 60 revisiones que hacemos en nuestra auditoría SEO completa es específicamente sobre bots y crawling. Miramos 4 cosas concretas:

El contenido actual del robots.txt y si coincide con la estrategia de negocio del cliente (muchas veces no).
Qué bots de IA están entrando en los logs de los últimos 30 días, con qué frecuencia y a qué URLs.
Si el contenido principal es legible sin JavaScript o requiere renderizado avanzado para extraer información.
Si existe llms.txt y, si no, si tiene sentido implementarlo para ese cliente en concreto.

El resultado de esta sección suele ser un entregable corto pero muy rentable: en muchos casos descubrimos que los bots están leyendo páginas que al cliente no le interesan (y deberían bloquearse) o que páginas que sí interesarían son invisibles por estar tras JavaScript pesado. Son fixes baratos con impacto directo en visibilidad en respuestas generadas.

Cómo tomar control de los bots de IA en tu web esta semana

Gestionar bien los bots de IA en tu web no es un proyecto de meses ni requiere reestructurar nada. Es una secuencia de 4 acciones que caben en una semana laboral: descargar 30 días de logs del servidor y filtrar por user-agent para ver qué bots están entrando, elegir una de las 4 estrategias del artículo (bloqueo selectivo, apertura total, híbrido por sección, o wait-and-see con monitorización) según tu modelo de negocio, actualizar el robots.txt para reflejar esa decisión, y revisar que el contenido importante se sirva como HTML plano sin depender de JavaScript pesado.

Si publicas contenido original y quieres diferenciarte, añade un llms.txt antes de que lo tenga tu competencia: el estándar todavía no es oficial pero algunos motores ya lo están leyendo y cuesta media hora implementarlo bien. Y protege lo que haya que proteger con rate limiting o Cloudflare para los scrapers que no respetan robots.txt, que son otra categoría distinta. Hecho todo esto, tienes una base que te vale para los próximos 12 meses y que se actualiza en 30 minutos cada vez que aparezca un bot nuevo. Es probablemente la mejor relación coste/impacto que puedes conseguir en visibilidad IA ahora mismo.