Sacar el número de páginas indexadas de un domino (en bulk)

Cuando queremos saber las páginas indexadas que tiene un domino que no es de nuestra propiedad, solemos utilizar el comando site: en el buscador de Google. Ejemplo: site:devseo.xyz.

Este comando (Google Dorks) nos da un resultado aproximado de las páginas que están en el índice de Google.

Si como buenos SEOs, tenemos una lista de dominios expirados 😁 y queremos saber si aún tienen páginas indexadas (es un requisito que debe cumplir un buen expirado), comprobar manualmente cada uno de ellos con el comando site nos llevaría mucho tiempo.

Para automatizar este proceso he creado un Google Sheets que, combinándolo con WebScraper, saca las páginas indexadas de cada dominio automáticamente ahorrándonos mucho tiempo.

Desde este enlace puedes acceder a la hoja de Google Sheets.

Te explico como funciona:

  1. Hazte una copia para poder usarla (Archivo -> Hacer copia).
  2. Rellena la columna «A» con los dominios para los que quieres sacar el número de páginas indexadas.
  3. Arrastra la fórmula de la celda «B2» hasta el final (según los dominios que hayas introducido en el paso previo).
  4. Se habrá regenerado el contenido de la celda «D2». Esto es un texto en formato JSON que importarás en Web Scraper. Cópialo al portapapeles.
  5. Abre Web Scraper e importa un nuevo sitemap utilizando el contenido del paso anterior.
  6. Ahora tan solo tendremos que iniciar el «scrapeo» (menú Scrape). Te recomiendo dejar los valores de «Request interval» y «Pagel load delay» con los valores por defecto (2000 ms).
  7. Web Scraper comenzará a ejecutar el comando site automáticamente por cada dominio. Deberemos estar algo pendientes, yo lo suelo tener abierto en otro monitor, ya que si tenemos muchos dominios es probable que nos salte el captcha de Google de vez en cuando y tendremos que resolverlo manualmente.
  8. Al finalizar tendremos, por cada domino, el número de páginas que tiene indexadas (si aparece «null» es que no encontró ninguna).
👉  Accede a los datos de una hoja de cálculo de Google sin utilizar la clave de API
Importando sitemap en Web Scraper
Scrapeando con Web Scraper
Resultados de Web Scraper – Número de páginas indexadas por dominio.

Esto es todo. Espero que te sirva. 😉

👇Tu comentario