Regex en Search Console

Vamos a usar expresiones regulares en Search Console para filtrar la información según nuestras necesidades.

Search Console utiliza la sintaxis Re2. Revisa el enlace si quieres comprobar la sintaxis de expresiones regulares que admite.

Obtener long tails

Vamos a ver una expresión regular con la que filtraremos las consultas según el número de palabras que incluyan. Esto nos viene bien para extraer palabras claves de cola larga.

Esta regex mostrará las consultas que contengan 6 o más palabras.

Lo que hace la expresión es contar el número de espacios para identificar el número de palabras. Por tanto, si tienes 5 espacios, tendrás 6 palabras. Tendrás que poner un número menos del número mínimo de palabras que quieres contar.

([^" "]*\s){5,}?

Filtrar por número de caracteres

En lugar de tener en cuenta el número de palabras, también podríamos contar el número de caracteres.

^[\w\W\s\S]{50,}$

Esto podemos utilizarlo en el filtro de páginas para identificar URLs que no tengamos bien optimizadas.

Encontrar URLs con caracteres especiales

Con esta regex identificaremos URLs que tengan caracteres extraños. Recuerda crear un filtro de página en lugar de consulta.

[^\/\.\-:0-9A-Za-z_]

Filtrar por varias URLs

Puedes consultar la información de Search Console filtrando por las URLs que te interesen. Para ello usaremos la siguiente expresión regular.

^https://devseo.xyz/(xpath|patrones-diseno-javascript-node)/$

Sustituye los valores entre paréntesis por las URLs que necesites obtener. Puedes añadir más valores separándolos con el símbolo |.

Buscar páginas que no acaben con la barra diagonal

Al crear el filtro elige el desplegable «No coincide con la regex».
.*\/$

Encontrar intenciones de búsqueda

Puedes filtrar por ciertas palabras para encontrar consultas con diferentes intenciones de búsqueda.

👉  Validar el formato de un número de teléfono en Excel con una función VBA

Informacional

^(como|que|quien|donde|por que|cuando|cuanto|cuan|cual)

Transaccional

.*(comprar|barato|oferta|precio).*

Navegacional

.*amazon.*

Comercial

.*(mejores|mejor|top|vs|review|reseña).*

Detectar hackeos

Si nos ha hackeado la web y nos han inyectado contenido podemos detectarlo a través de las palabras comunes que suelen utilizar.

.*viagra.*|.*cialis.*|.*levitra.*|.*drugs.*|.*porn.*|.*www.*www.*
.*\p{Hiragana}.*|.*\p{Cyrillic}.*|.*\p{Hangul}.*|.*\p{Han}.*|.*\p{Thai}.*

Comprobar páginas de Admin indexadas

Si por error o problema de permisos, tenemos alguna página de administración indexada, podemos detectarla con la siguiente consulta.

.*wp-.*

Obtener todas las URLs dentro de un directorio

Puedes crear un filtro con regex para mostrar solo la información de un determinado directorio o de una categoría.

Por ejemplo, para esta URL https://midominio.com/categoria-1/, puedes sacar toda la información que cuelga de ella con la siguiente expresión:

https:\/\/midominio.com\/categoria-1\/.*

Recuerda aplicar el filtro de página.

👇Tu comentario