LucusHost, el mejor hosting

Recupera el control: tú decides qué aprende la IA de tu contenido

Publicado el 5 de julio de 2025
Actualizado el 6 de julio de 2025

Descubre cómo controlar el rastreo de la IA en tu web. Te doy el código para robots.txt, te explico la propuesta llms.txt y te desvelo la estrategia SEO para decidir qué bloquear y qué permitir para potenciar tu visibilidad.

    ¿Tienes la sensación de que todo lo que escribes en tu web puede acabar en la «mente» de una inteligencia artificial sin que tú hayas dicho ni pío? Pues déjame decirte que no eres la única persona que se siente de esta manera. Es el nuevo gran dilema de Internet.

    Parece que de la noche a la mañana, gigantes como ChatGPT, Gemini y otras IA se han puesto las pilas aprendiendo de todo el contenido que hay en la red. Y sí, eso incluye tus artículos, tus descripciones de producto y todo el cariño que le pones a tu web.

    Pero, ¡que no cunda el pánico! Aunque el panorama parezca el salvaje oeste, tienes mucho más poder del que crees para poner límites. En esta guía te voy a enseñar, de forma clara y sencilla, cómo puedes tomar las riendas y decidir quién quieres que aprenda de tu contenido.

    La solución del futuro que ya suena con fuerza: llms.txt

    Seguro que has oído hablar del famoso archivo robots.txt, esa especie de «chivato» que le dice a Google por dónde puede y no puede pasar. Pues bien, ante la avalancha de la ia, ha surgido una idea muy lógica: crear un archivo específico para ellas. Y así nace la propuesta del llms.txt.

    ¿Qué es exactamente llms.txt?

    Esta idea no salió de la nada. Fue propuesta en septiembre de 2024 por Jeremy Howard, cofundador de la empresa de investigación Answer.AI. Su planteamiento es muy inteligente: las páginas web modernas son un lío de código, menús y anuncios, lo que dificulta que la IA extraiga el contenido importante de forma limpia.

    Así que llms.txt nace para ser una especie de atajo. Imagina que robots.txt es la norma de circulación para todos los vehículos, y llms.txt es un carril bici exclusivo para las inteligencias artificiales. La idea es tener un archivo dedicado a presentarles el contenido de forma clara y directa, sin todo el «ruido» de alrededor.

    ¿Por qué es una buena idea?

    Es genial porque permite separar las cosas. Con llms.txt, podrías decirle a Google que indexe tu web para las búsquedas (¡lo que queremos para el SEO!) pero, al mismo tiempo, prohibir que esa misma información se use para entrenar a su ia. Es tener lo mejor de los dos mundos.

    La cruda realidad: ¿funciona ya?

    Aquí viene el jarro de agua fría. A día de hoy (Julio de 2025), llms.txt sigue siendo una propuesta. Es una idea fantástica que ojalá se convierta en un estándar, pero las grandes compañías de IA aún no lo han adoptado oficialmente. Por lo tanto, crear un archivo llms.txt en tu web ahora mismo es como poner una señal de tráfico que la mayoría no reconoce.

    La solución real y efectiva que puedes aplicar hoy: tu robots.txt

    Entonces, ¿estamos sin defensas? ¡Para nada! La batalla por el control de nuestro contenido se está librando, de momento, en un terreno que ya conocemos muy bien: nuestro querido archivo robots.txt.

    Las grandes empresas como Google y OpenAI han creado «identidades» especiales para sus robots de IA. Estos nuevos «jugadores» sí que obedecen las reglas que pongas en tu robots.txt. Los más importantes son:

    • Google-Extended: Es el robot que Google usa para recopilar datos para Gemini y sus futuros modelos de ia. No te preocupes, bloquearlo no afecta a Googlebot, el robot de toda la vida que se ocupa del SEO.
    • ChatGPT-User: Es el agente de OpenAI. Si quieres que los modelos de GPT no aprendan de ti, este es tu objetivo.
    • CCBot: Este pertenece a Common Crawl, una organización que crea una copia masiva de internet que luego es usada por miles de investigadores y empresas para entrenar sus IA. Bloquearlo es una jugada muy inteligente.

    Manos a la obra: cómo bloquear a los robots de ia paso a paso

    Ahora que conoces a a quienes participan en el juego, vamos a ver cómo poner las reglas.

    Opción 1: el bloqueo total (la más sencilla y popular)

    Si quieres cortar por lo sano y decir «nadie de la IA tiene permiso para usar mi contenido», esta es tu opción. Simplemente tienes que añadir unas líneas a tu archivo robots.txt.

    Aquí tienes el código listo para copiar y pegar. Con esto, les cierras la puerta a los principales bots de ia.

    # Bloqueo para los robots de Inteligencia Artificial
    User-agent: Google-Extended
    Disallow: /
    
    User-agent: ChatGPT-User
    Disallow: /
    
    User-agent: CCBot
    Disallow: /
    Lenguaje del código: PHP (php)
    Escudo digital protegiendo el contenido de una web del rastreo de robots de inteligencia artificial.

    Opción 2: el bloqueo selectivo (para un uso avanzado)

    Quizás no quieres un bloqueo total. A lo mejor te parece bien que la IA aprenda de los artículos de tu blog, pero no de tus páginas de servicios. ¡También puedes hacerlo! La clave es usar la directiva Allow para crear excepciones. La lógica es: «te prohíbo entrar a todo, excepto a esta sección».

    Por ejemplo, si quisieras que solo pudieran acceder a tu blog (/blog/), añadirías esto:

    # Bloqueo selectivo para el bot de Google IA
    User-agent: Google-Extended
    Disallow: /
    Allow: /blog/
    Lenguaje del código: PHP (php)

    Repetirías este bloque para ChatGPT-User y los otros bots a los que quieras dar acceso selectivo.

    ¿Y cómo hago esto en mi WordPress? Tres caminos para tomar el control

    Vale, ya tienes el código que quieres usar y la estrategia clara en tu mente. Ahora toca la parte divertida: ponerlo en práctica en tu WordPress.

    Hay varias formas de hacerlo, desde las más sencillas con un plugin hasta una más manual quienes prefieren un contacto más directo con los archivos. ¡Vamos a verlas!

    Opción 1: Usando tu plugin de SEO (la forma más fácil y recomendada)

    La gran mayoría de los plugins de SEO para WordPress, además de ayudarte a optimizar tus contenidos, incluyen herramientas para editar archivos importantes de tu web de forma segura.

    Esta es la opción que te recomiendo, ya que evita que tengas que acceder directamente a los archivos de tu servidor.

    Si usas SEOPress (¡como yo!)

    Si utilizas SEOPress, lo tienes muy fácil. Los pasos son súper sencillos:

    1. En tu panel de WordPress, busca «SEO» en el menú lateral y haz clic.
    2. Dentro de las opciones de SEOPress, ve a la pestaña «Herramientas».
    3. Busca la sección llamada «robots.txt / .htaccess». Verás una caja de texto donde puedes editar tu archivo robots.txt virtual.
    4. Pega aquí el código que hemos preparado antes.
    5. No te olvides de darle al botón de «Guardar cambios». ¡Y ya está! SEOPress se encarga del resto.

    Si usas otros plugins populares

    • Con Rank Math: El proceso es muy similar. Ve a Rank Math SEO > Ajustes Generales > Editar robots.txt. Pega tu código en la caja y guarda.
    • Con Yoast SEO: Lo encontrarás en Yoast SEO > Herramientas > Editor de archivos. Ahí podrás editar tu robots.txt.

    Opción 2: Creando el archivo robots.txt a mano (para la gente manitas)

    Si prefieres no añadir más funciones a los plugins o simplemente te incomoda trabajar con archivos, este es tu método. Consiste en crear el archivo en tu ordenador y subirlo directamente a tu servidor.

    Paso 1: Crear el archivo de texto

    1. Abre un editor de texto plano. ¡Ojo! Es muy importante que sea texto plano. Usa el Bloc de Notas en Windows, TextEdit en Mac (asegúrate de ponerlo en modo «texto plano») o un editor de código como VS Code. Nunca uses Microsoft Word o similares.
    2. Pega las reglas que has decidido usar en el documento en blanco.
    3. Guarda el archivo con el nombre exacto: robots.txt. Ni mayúsculas, ni otra extensión.

    Paso 2: Subir el archivo a la raíz de tu WordPress

    Ahora tienes que subir ese pequeño archivo al directorio raíz de tu instalación de WordPress. Esta es la carpeta principal de tu web, donde encontrarás carpetas como wp-content, wp-admin y wp-includes.

    Tienes dos formas de hacerlo:

    • Usando un cliente FTP: Si usas un programa como FileZilla, conéctate a tu servidor. Navega hasta la carpeta raíz (normalmente llamada public_html, www o httpdocs) y simplemente arrastra tu archivo robots.txt desde tu ordenador a esa carpeta.
    • Usando el Administrador de Archivos de tu hosting: Accede al panel de control de tu proveedor de hosting (cPanel, Plesk, etc.). Busca una herramienta llamada «Administrador de Archivos» o «File Manager». Navega hasta la carpeta raíz de tu web y usa la opción «Cargar» o «Upload» para subir el archivo robots.txt que creaste.

    ¡Y con eso estaría listo! Ya sea a través de un plugin o de forma manual, ahora tu web tiene unas reglas claras para que los robots de la inteligencia artificial sepan cómo deben comportarse.

    La pregunta del millón: ¿debería permitir el acceso a la IA para mejorar mi SEO?

    Ahora que ya sabes cómo poner límites, llega la pregunta más importante: ¿deberías? La respuesta es un rotundo depende de tu estrategia.

    Las AI Overviews de Google (las respuestas de IA en los resultados de búsqueda) y el uso de ChatGPT como buscador están cambiando las reglas. Ya no solo compites por un enlace en el top 10; ahora también compites por ser la fuente que la IA cita.

    Los pros: ¿por qué sí podrías permitirlo?

    • Visibilidad en las respuestas de IA: Si Google usa tu contenido para su resumen, puede incluir un enlace de cita a tu web. Es el nuevo «featured snippet» y puede traerte tráfico cualificado.
    • Demostrar tu autoridad (E-E-A-T): Al dejar que la ia lea tu contenido de calidad (tu blog, por ejemplo), la «entrenas» para que te reconozca comouna voz experta en tu nicho.
    • Apostar por el futuro: El futuro de la búsqueda es conversacional. Ser una fuente de confianza para las ias puede ser una ventaja competitiva a largo plazo.

    Los contras: ¿cuáles son los riesgos?

    • Canibalización de clics («zero-click»): El mayor miedo. Si la IA resume tu contenido perfectamente, la gente obtiene la respuesta sin visitar tu web. Tú pones el conocimiento, pero Google se queda el tráfico.
    • Pérdida de control: Tu contenido se usa para entrenar modelos comerciales sobre los que no tienes ningún poder.
    • Malinterpretaciones: Una IA podría resumir mal tu contenido, asociando tu marca con información incorrecta.

    Mi recomendación: adopta un enfoque híbrido y estratégico

    Ni blanco ni negro. La jugada más inteligente es un enfoque híbrido: decides qué contenido ofreces a la IA y cuál proteges.

    • Qué SÍ permitir: Tu contenido informativo y de atracción (artículos de blog, guías, tutoriales). El objetivo aquí es ganar visibilidad y autoridad.
    • Qué NO permitir: Tus activos de negocio (páginas de servicios, descripciones de producto, casos de estudio, landing pages). El objetivo aquí es forzar el clic y la conversión en tu propia web.

    Conclusión: una nueva era de control y estrategia

    El mundo de la IA avanza a toda velocidad, pero eso no significa que tengamos que quedarnos al margen. Ahora tienes el conocimiento técnico y la visión estratégica para tomar el control.

    La clave ya no es solo bloquear o permitir, sino decidir con inteligencia qué partes de tu web abres al mundo de la IA para potenciar tu marca y cuáles proteges para asegurar tu negocio. Usa tu robots.txt no como un muro, sino como una puerta giratoria que tú manejas.

    Y tú, ¿qué opinas de todo esto? ¿Vas a optar por un bloqueo total o por un enfoque híbrido? ¡Te leo en los comentarios!

    Si creees que esto puede ser de utilidad a alguien más, pues... compártelo que es gratis 🙂

    Te recomiendo

    Libros que me ayudan

    Donde alojo mis sitios web

    LucusHost, el mejor hosting

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    He leído y acepto el Aviso legal y la Política de Privacidad.

    Los datos de tus comentarios están seguros, según la política de privacidad.
    Responsable » Jose Ramón Bernabeu Guillem
    Finalidad » Moderar los comentarios
    Legitimación » Tu consentimiento al marcar la casilla verificación
    Destinatarios » Los datos que proporciones estarán ubicados en los servidores de LucusHost, proveedor de hosting de este sitio
    Derechos » por supuesto tendrás derecho, entre otros, a acceder, rectificar, limitar y suprimir tus datos
    Sitio alojado en un servidor verde según The Green Web Foundation

    LucusHost, el mejor hosting

    Aviso legal | Condiciones de contratación | Política de privacidad | Política de cookies
    © 2017-2025 · Jose R. Bernabeu ·
    linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram