Vamos a usar expresiones regulares en Search Console para filtrar la información según nuestras necesidades.
Search Console utiliza la sintaxis Re2. Revisa el enlace si quieres comprobar la sintaxis de expresiones regulares que admite.
Contenidos
Obtener long tails
Vamos a ver una expresión regular con la que filtraremos las consultas según el número de palabras que incluyan. Esto nos viene bien para extraer palabras claves de cola larga.
Esta regex mostrará las consultas que contengan 6 o más palabras.
Lo que hace la expresión es contar el número de espacios para identificar el número de palabras. Por tanto, si tienes 5 espacios, tendrás 6 palabras. Tendrás que poner un número menos del número mínimo de palabras que quieres contar.
([^" "]*\s){5,}?
Filtrar por número de caracteres
En lugar de tener en cuenta el número de palabras, también podríamos contar el número de caracteres.
^[\w\W\s\S]{50,}$
Esto podemos utilizarlo en el filtro de páginas para identificar URLs que no tengamos bien optimizadas.
Encontrar URLs con caracteres especiales
Con esta regex identificaremos URLs que tengan caracteres extraños. Recuerda crear un filtro de página en lugar de consulta.
[^\/\.\-:0-9A-Za-z_]
Filtrar por varias URLs
Puedes consultar la información de Search Console filtrando por las URLs que te interesen. Para ello usaremos la siguiente expresión regular.
^https://devseo.xyz/(xpath|patrones-diseno-javascript-node)/$
Sustituye los valores entre paréntesis por las URLs que necesites obtener. Puedes añadir más valores separándolos con el símbolo |
.
Buscar páginas que no acaben con la barra diagonal

.*\/$
Encontrar intenciones de búsqueda
Puedes filtrar por ciertas palabras para encontrar consultas con diferentes intenciones de búsqueda.
Informacional
^(como|que|quien|donde|por que|cuando|cuanto|cuan|cual)
Transaccional
.*(comprar|barato|oferta|precio).*
Navegacional
.*amazon.*
Comercial
.*(mejores|mejor|top|vs|review|reseña).*
Detectar hackeos
Si nos ha hackeado la web y nos han inyectado contenido podemos detectarlo a través de las palabras comunes que suelen utilizar.
.*viagra.*|.*cialis.*|.*levitra.*|.*drugs.*|.*porn.*|.*www.*www.*
.*\p{Hiragana}.*|.*\p{Cyrillic}.*|.*\p{Hangul}.*|.*\p{Han}.*|.*\p{Thai}.*
Comprobar páginas de Admin indexadas
Si por error o problema de permisos, tenemos alguna página de administración indexada, podemos detectarla con la siguiente consulta.
.*wp-.*
Obtener todas las URLs dentro de un directorio
Puedes crear un filtro con regex para mostrar solo la información de un determinado directorio o de una categoría.
Por ejemplo, para esta URL https://midominio.com/categoria-1/
, puedes sacar toda la información que cuelga de ella con la siguiente expresión:
https:\/\/midominio.com\/categoria-1\/.*
Recuerda aplicar el filtro de página.