Sabemos que es vital para cualquier web el tener presencia en Internet y ser visible en los motores de búsqueda, pero los rastreadores de inteligencia artificial (IA), además de poder ayudar a aumentar el tráfico y la visibilidad, pueden usar tu contenido sin tú permiso, lo que es una legítima preocupación. Afortunadamente, el archivo robots.txt
ofrece una solución para controlar y bloquear el acceso de estos rastreadores IA a tu página web.
Información a saber: Por si desconoces el uso de robots.txt
, este es un archivo de texto que se coloca en la carpeta raíz de un sitio web y sirve para guiar a los robots web (rastreadores) sobre qué partes de tu página pueden o no pueden ser rastreadas o indexadas. Este archivo es parte del Protocolo de Exclusión de Robots (REP), un estándar que ayuda a los administradores web a comunicarse con los rastreadores sobre las reglas de acceso a su contenido.
El usar robots.txt
es esencial para evitar que el servidor se sobrecargue limitando cuánto contenido pueden acceder los rastreadores. También el impedir que ciertas páginas o secciones de tu página web sean indexadas por motores de búsqueda y otros rastreadores, optimizando así tú indexación al enfocar a los rastreadores en el contenido más relevante y de mayor calidad.
¿Por qué bloquear los rastreadores de IA y cómo hacerlo?
Las plataformas de IA generativa, como OpenAI y otras, pueden usar el contenido de tu web para entrenar a sus algoritmos sin tu permiso. Bloquear estos rastreadores puede proteger tu contenido original y mantener tu privacidad online. Al mismo tiempo, podrías evitar que algunos motores de búsqueda, como Google, detecten contenido duplicado con el de otras páginas webs.
Para lograrlo, basta con configurar el archivo robots.txt
de tu página web.
Primero, identifica la cadena del agente de usuario del rastreador de IA que quieres bloquear. Normalmente, esta información se encuentra en la documentación del rastreador o mediante herramientas de análisis de tráfico web.
Después, accede a la carpeta raíz de tu página web y abre o crea el archivo robots.txt
. Y, una vez abierto, debes de añadir la siguiente estructura de código / sintaxis:
User-agent: [nombre-del-agente-de-usuario]
Disallow: /
Con ello, para bloquear a los rastreadores IA, basta con reemplazar [nombre-del-agente-de-usuario] por el nombre del rastreador IA que quieras negarle el acceso. Esto sería un ejemplo:
User-agent: CCBot
Disallow: /
User-agent: OpenAI
Disallow: /
Para que funcione correctamente el archivo robots.txt, debe colocarse en la carpeta principal de tu página web. Podrás saber si está en el lugar correcto si al acceder a https://tupáginaweb.com/robots.txt
se carga y puedes ver el texto del archivo.
Agentes de rastreadores IA conocidos
Anthropic-AI
Agente: anthropic-ai
Agente: Claude-Web
Apple
Agente: Applebot-Extended
Bytespider
Agente: Bytespider
CCBot
Agente: CCBot
ChatGPT User
Agente: ChatGPT-User
Cohere AI
Agente: cohere-ai
Diffbot
Agente: Diffbot
Facebook/Meta
Agente: FacebookBot
GoogleOther
Agente: GoogleOther
Google-Extended
Agente: Google-Extended
GPTBot
Agente: GPTBot
ImagesiftBot
Agente: ImagesiftBot
PerplexityBot
Agente: PerplexityBot
Webz [.] io
Agente: OmigiliBot
Agente: Omigili
A tener en cuenta
No todos los rastreadores siguen las directivas de robots.txt
. Los rastreadores legítimos (como los de los motores de búsqueda) respetarán estas reglas, pero los rastreadores maliciosos pueden ignorarlas. Por lo tanto, no confíes únicamente en robots.txt
para proteger tus datos. También utiliza otros métodos, como la autenticación y los controles del lado del servidor, para una mayor seguridad.
¿Tienes alguna pregunta o problema relacionado con el tema del artículo? Queremos ayudarte.
Deja un comentario con tu problema o pregunta. Leemos y respondemos todos los comentarios, aunque a veces podamos tardar un poco debido al volumen que recibimos. Además, si tu consulta inspira la escritura de un artículo, te notificaremos por email cuando lo publiquemos.
*Moderamos los comentarios para evitar spam.
¡Gracias por enriquecer nuestra comunidad con tu participación!