Cómo Evitar la Indexación de Archivos PDF en tu Sitio Web

Si te encuentras manejando contenido digital, es posible que tengas archivos PDF que no deseas que aparezcan en los resultados de búsqueda. Ya sea para controlar mejor el contenido duplicado, proteger documentos privados (OJO: esto no deniega el acceso), o simplemente mantener tu sitio web ordenado, prevenir la indexación de ciertos archivos por los motores de búsqueda es una práctica común. A continuación, exploramos dos métodos efectivos para evitar que tus archivos PDF sean indexados por motores de búsqueda como Google.

Método 1: Uso del archivo robots.txt

El archivo robots.txt es una forma de decirle a los motores de búsqueda qué páginas o archivos no deben ser rastreados. Para impedir que indexen un PDF específico, añade las siguientes líneas a tu robots.txt:

User-agent: *
Disallow: /ruta/del/archivo.pdf

Reemplaza /ruta/del/archivo.pdf con la ruta exacta al archivo que deseas excluir. Ten en cuenta que si bien esto disuade a los motores de búsqueda de indexar el archivo, no es una garantía absoluta, especialmente si el archivo ya ha sido indexado o si hay enlaces directos a él desde otros sitios.

Método 2: Uso de Cabeceras HTTP X-Robots-Tag

Para un control más granular y seguro, puedes utilizar las cabeceras HTTP X-Robots-Tag. Esta técnica es ideal si tienes acceso al servidor donde se aloja tu sitio web.

En Apache:

Si tu servidor web utiliza Apache, añade el siguiente código a tu archivo .htaccess:

<Files "archivo.pdf">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Si el archivo PDF se encuentra en una ruta específica, necesitas especificar la ruta completa en la directiva <FilesMatch> como sigue:

<FilesMatch "/horarios/cordoba\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

En Nginx:

Para los usuarios de Nginx, la configuración es un poco diferente. Edita tu archivo de configuración de Nginx con el siguiente bloque:

location ~* /horarios/cordoba\.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Esta configuración se aplicará a cualquier archivo cordoba.pdf que se encuentre dentro de un directorio horarios, independientemente de su ubicación en el sitio web.

👉  Patrones de diseño en JavaScript y Node JS

Verificación y Monitoreo

Después de realizar cualquiera de estos cambios, es crucial verificar que todo esté funcionando como se espera. Puedes utilizar la herramienta de inspección de URL de Google Search Console para verificar la cabecera X-Robots-Tag y solicitar la eliminación del archivo de los resultados de búsqueda si es necesario. También puedes buscar cualquier otra herramienta online.

Concluyendo

Mantener ciertos archivos PDF fuera de los ojos de los motores de búsqueda es una parte esencial de la gestión de la presencia en línea de tu empresa o marca personal. Con los métodos proporcionados, puedes asegurarte de que solo el contenido que deseas sea descubierto y indexado. Como siempre, al hacer cambios técnicos, es prudente hacer una copia de seguridad de tus configuraciones actuales y probar los cambios en un entorno de desarrollo antes de implementarlos en producción.

¿Necesitas Ayuda?

Si este proceso te parece complicado o simplemente prefieres dejarlo en manos de un experto, puedes contratarme para ello. Contáctame por el formulario de contacto.

👇Tu comentario