SEO
    Jorge J. Rolo18 de noviembre, 202514 min

    robots.txt: la guía definitiva para controlar tu crawl budget

    Domina el archivo robots.txt para controlar qué pueden y no pueden rastrear los motores de búsqueda en tu sitio.

    Resumir con:

    Compartir:

    Un archivo robots.txt mal configurado puede destruir años de trabajo SEO en 24 horas. Una empresa e-commerce desplegó accidentalmente un Disallow: / en producción y perdió el 90% de su tráfico orgánico en un día.

    El archivo robots.txt es tu primera línea de comunicación con los crawlers. Y cuando se trata de comunicación con Google, cada palabra cuenta.

    ¿Qué es robots.txt y cómo funciona?

    robots.txt es un archivo de texto plano ubicado en https://tudominio.com/robots.txt que implementa el Robots Exclusion Protocol (RFC 9309, oficial desde septiembre 2022).

    Distinción CRÍTICA:

    • ✅ robots.txt controla el CRAWLING (rastreo/visita de páginas)
    • ❌ robots.txt NO controla el INDEXING (inclusión en resultados)

    Consecuencia importante: Si una página está bloqueada en robots.txt pero recibe enlaces externos, Google puede indexar su URL sin contenido (aparecerá en resultados sin descripción).

    Sintaxis básica y directivas

    1. User-agent

    Especifica a qué rastreador se aplican las reglas.

    User-agent: *
    # Aplica a todos los crawlers
    
    User-agent: Googlebot
    # Solo para Google
    
    User-agent: GPTBot
    # Solo para ChatGPT

    User-agents importantes (2025)

    • Googlebot: Crawler principal de Google
    • Bingbot: Microsoft Bing
    • GPTBot: OpenAI / ChatGPT
    • ClaudeBot: Anthropic / Claude
    • CCBot: Common Crawl
    • Google-Extended: Para bloquear entrenamiento de IA de Google

    2. Disallow y Allow

    User-agent: *
    # Bloquear directorio admin
    Disallow: /admin/
    
    # Bloquear parámetros de búsqueda
    Disallow: /*?s=
    Disallow: /*?filter=
    
    # Permitir excepción específica
    Allow: /admin/public/

    3. Wildcards (* y $)

    Asterisco (*): Cualquier secuencia de caracteres

    # Bloquear todos los PDFs
    Disallow: /*.pdf
    
    # Bloquear URLs con parámetros
    Disallow: /*?
    
    # Bloquear imágenes en cualquier ubicación
    Disallow: /*/*.jpg

    Dólar ($): Especifica el final de la URL

    # Bloquear solo URLs que terminen en .php
    Disallow: /*.php$
    
    # Bloquear solo archivos .gif (no /image.gif.html)
    Disallow: /*.gif$

    4. Sitemap

    Sitemap: https://tudominio.com/sitemap.xml
    
    # Múltiples sitemaps
    Sitemap: https://tudominio.com/sitemap-posts.xml
    Sitemap: https://tudominio.com/sitemap-products.xml

    5. Crawl-delay

    ⚠️ IMPORTANTE: Google NO soporta esta directiva. Solo Bing y Yandex.

    User-agent: Bingbot
    Crawl-delay: 10
    # Bing: máximo 1 página cada 10 segundos
    
    User-agent: Yandexbot
    Crawl-delay: 5
    # Yandex: espera 5 segundos entre solicitudes

    Errores CRÍTICOS que debes evitar

    1. Bloquear todo el sitio accidentalmente

    ERROR FATAL:

    User-agent: *
    Disallow: /

    Consecuencia: Pérdida del 90% del tráfico orgánico en 24-48 horas. Años de trabajo SEO destruidos.

    CORRECTO:

    User-agent: *
    Disallow: /admin/
    Disallow: /private/

    2. Bloquear CSS y JavaScript

    MAL:

    Disallow: /css/
    Disallow: /js/
    Disallow: /*.css$
    Disallow: /*.js$

    Consecuencia: Google no puede renderizar las páginas correctamente. Problemas de indexación, pérdida de featured snippets, evaluación incorrecta de Core Web Vitals.

    BIEN:

    User-agent: *
    Allow: /css/
    Allow: /js/

    3. Usar robots.txt para contenido NoIndex

    ERROR CONCEPTUAL:

    # robots.txt
    Disallow: /thank-you-page/
    # Pensando que esto previene indexación

    Problema: Robots.txt bloquea el crawling, así que Google NO puede leer la etiqueta noindex en la página. La URL puede aparecer en resultados si hay enlaces externos.

    SOLUCIÓN CORRECTA:

    <!-- En thank-you-page.html -->
    <meta name="robots" content="noindex, follow">
    
    # robots.txt - PERMITIR crawling
    User-agent: *
    Allow: /thank-you-page/

    4. Subdominios sin robots.txt

    ERROR:

    • www.example.com/robots.txt configurado ✅
    • staging.example.com/robots.txt no existe ❌

    Consecuencia: Entornos de desarrollo indexados, contenido duplicado, contenido no finalizado en resultados de búsqueda.

    SOLUCIÓN:

    # staging.example.com/robots.txt
    User-agent: *
    Disallow: /

    5. Archivo robots.txt con 5000+ líneas

    Caso real documentado: Negocio pequeño con robots.txt de más de 5000 directivas = solo 1 página indexada.

    MAL (5000 líneas):

    Disallow: /product-page-1.html
    Disallow: /product-page-2.html
    Disallow: /product-page-3.html
    ... (4997 líneas más)

    BIEN (1 línea):

    Disallow: /product-page-*.html

    Máximo recomendado: 100-200 líneas

    Casos de uso prácticos

    1. WordPress básico

    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    
    # Páginas dinámicas
    Disallow: /*?replytocom=
    Disallow: /*?s=
    
    Sitemap: https://tudominio.com/sitemap_index.xml

    2. E-commerce / WooCommerce

    User-agent: *
    
    # WordPress básico
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php
    
    # WooCommerce - checkout y cuenta
    Disallow: /my-account/
    Disallow: /cart/
    Disallow: /checkout/
    Disallow: /order-tracking/
    
    # Filtros y parámetros
    Disallow: /*?add-to-cart=
    Disallow: /*?filter_*
    Disallow: /*?orderby=
    
    # Permitir categorías y productos
    Allow: /product-category/
    Allow: /product/
    
    Sitemap: https://tudominio.com/product-sitemap.xml
    Sitemap: https://tudominio.com/product_cat-sitemap.xml

    3. Bloquear AI Crawlers (Tendencia 2025)

    Muchos sitios de noticias (BBC, New York Times) bloquean crawlers de IA para proteger contenido.

    # Bloquear entrenamiento de IA de Google
    User-agent: Google-Extended
    Disallow: /
    
    # Bloquear OpenAI/ChatGPT
    User-agent: GPTBot
    Disallow: /
    
    # Bloquear Anthropic/Claude
    User-agent: ClaudeBot
    Disallow: /
    
    # Bloquear Common Crawl
    User-agent: CCBot
    Disallow: /
    
    # Bloquear Perplexity
    User-agent: PerplexityBot
    Disallow: /
    
    # Otros crawlers pueden seguir accediendo
    User-agent: *
    Disallow:

    4. Optimización de Crawl Budget (sitio grande)

    User-agent: *
    
    # Bloquear páginas de búsqueda interna
    Disallow: /*?s=
    Disallow: /search?
    
    # Bloquear parámetros de filtrado y ordenación
    Disallow: /*?filter=
    Disallow: /*?sort=
    Disallow: /*?orderby=
    
    # Bloquear navegación facetada
    Disallow: /*?price=
    Disallow: /*?color=
    Disallow: /*?size=
    
    # Bloquear paginación duplicada
    Disallow: /*?page=
    Disallow: /page/
    
    # Permitir sitemap
    Sitemap: https://tudominio.com/sitemap.xml

    Reglas de precedencia

    REGLA FUNDAMENTAL: La regla más específica (con más caracteres) gana.

    User-agent: *
    Disallow: /folder/
    Allow: /folder/public/
    Disallow: /folder/public/secret.html
    
    # Para /folder/public/secret.html:
    # - Disallow: /folder/ = 8 caracteres
    # - Allow: /folder/public/ = 15 caracteres
    # - Disallow: /folder/public/secret.html = 28 caracteres ← GANA
    # Resultado: BLOQUEADO

    En caso de empate: Allow tiene precedencia sobre Disallow

    Herramientas de validación

    • Google Search Console: Robots.txt Tester + URL Inspection Tool
    • TametheBots: https://tamethebots.com/tools/robotstxt-checker
    • TechnicalSEO.com: https://technicalseo.com/tools/robots-txt/
    • SE Ranking: https://seranking.com/free-tools/robots-txt-tester.html

    Relación con meta robots y X-Robots-Tag

    Aspecto robots.txt meta robots X-Robots-Tag
    Controla Crawling Indexing Indexing
    Ubicación Archivo raíz HTML <head> HTTP Header
    Tipos de archivo Todos Solo HTML Todos (PDF, imágenes, etc.)

    Tu checklist de robots.txt

    • ☐ Archivo ubicado en raíz (https://example.com/robots.txt)
    • ☐ Sintaxis validada con herramienta oficial
    • ☐ CSS y JavaScript permitidos
    • ☐ Sitemap.xml referenciado
    • ☐ Probado con Google Search Console Tester
    • ☐ Configuración diferente para staging/production
    • ☐ No expone información sensible
    • ☐ Documentado con comentarios
    • ☐ Monitoreado en Search Console
    • ☐ Versionado en control de versiones (Git)

    Estadísticas importantes

    • 30% de reducción en visibilidad de búsqueda con configuración incorrecta (investigación documentada)
    • 2.9 millones de penalizaciones manuales emitidas por Google por link manipulation (gestión correcta de crawl budget ayuda)
    • ✅ Recuperación de penalty puede llevar meses o años

    Conclusión: Menos es más

    El archivo robots.txt debe ser simple, directo y bien documentado.

    La regla de oro: Permitir por defecto, bloquear selectivamente.

    Tu plan de acción ahora:

    1. Audita tu robots.txt actual con Google Search Console
    2. Verifica que CSS/JS están permitidos
    3. Confirma que subdominios de staging bloquean todo
    4. Simplifica usando wildcards (máx 200 líneas)
    5. Documenta con comentarios cada sección
    6. Monitorea Coverage Report en Search Console semanalmente

    Recuerda: Un error en robots.txt puede destruir tu SEO en 24 horas. Pero bien configurado, optimiza tu crawl budget y protege lo que debe protegerse. Tómatelo en serio.

    El Autor

    Jorge J. Rolo

    Jorge J. Rolo

    Especialista en SEO técnico y AIO, apasionado por la automatización y la optimización para motores de búsqueda e inteligencia artificial. Con más de una década de experiencia en el mundo digital, me he especializado en la intersección entre el SEO técnico tradicional y las nuevas oportunidades que presenta la inteligencia artificial.

    Más de Jorge J. Rolo →

    ¿Quieres mejorar tu estrategia de SEO y AIO?

    Descubre cómo puedo ayudarte a optimizar tu presencia digital y alcanzar tus objetivos de negocio.