TUTORIAL Extracción de Emails masiva con Screaming Frog

jose

Administrator
Miembro del equipo
Tras el debate vía telegram sobre como es la mejor forma de extraer emails de webs, me gustaría compartir un pequeño tutorial acerca de cómo extraer emails con Screaming Frog. Este proceso puede resultar un poco complicado si eres nuevo en estos temas, pero no te preocupes, intentaré explicarlo de la forma más sencilla y detallada posible para que todos podamos entenderlo. Así que, ¡vamos allá!

Para darles un ejemplo práctico, supongamos que estamos tratando de extraer emails de algunas páginas que están posicionadas en Google para la keyword "marketing digital".
1688127223763.png

Configuración de Screaming Frog​

Screaming Frog es una herramienta poderosa, pero antes de sumergirnos en la extracción de emails, es esencial que sepamos cómo configurarla correctamente. Aquí te dejo un par de capturas que te ayudarán a entender mejor cómo hacerlo:

Lo configuramos en modo "Lista":
1688127280046.png


En configuración > personalización y extracción personalizaremos la extracción.
1688126628986.png
Le añadiremos un nuevo dato a extraer, le llamaremos "email", lo configuramos como "Expresión regular" y además le diremos la regex (la tienes al final de este post):
1688126650372.png

Pulsaremos en "Importar" > "Indicar manualmente" para meter las urls donde buscar el email de forma manual.
1688127307091.png
Aquí pegas las urls de las webs (una por línea), podemos meter miles o millones de urls:
1688127349948.png
Pulsamos sobre "Empezar" y en la pestaña de "Extracción personalizada" veremos este resultado (puntualizar también, que si la web tiene más de 1 email, te los va a sacar todos, en varias columnas "email 1", "email 2", "email 3"... etc:
1688126564176.png

La mágia del Regex​

Ahora, para poder extraer los correos electrónicos necesitamos una expresión regular, comúnmente conocida como regex. Este es el código mágico que nos permitirá hacerlo:
Código:
Contenido sólo para usuarios registrados. Por favor inicia sesión o regístrate.

Este código puede parecer complicado, pero en realidad, está buscando patrones que corresponden a las estructuras comunes de los correos electrónicos.

Espero que esta guía te haya resultado útil y fácil de seguir. Recuerda, practicar es la clave para dominar cualquier nueva habilidad, así que no dudes en experimentar con Screaming Frog

Si algo no ha quedado claro, no dudes en dejar un comentario aquí. Estaré encantado de ayudarte a resolver tus dudas. Y si te ha gustado el post, ¿por qué no dejas un "like"? ;)
 
Contenido sólo para usuarios registrados. Por favor inicia sesión o regístrate.

Sí, pero sería más complejo de obtener buenos resultados

Código:
Contenido sólo para usuarios registrados. Por favor inicia sesión o regístrate.

Con esta regex debería capturar números de teléfono que se vean más o menos así (son de tipo estadounidenses):
  • 123-456-7890
  • 123.456.7890
  • 123 456 7890
  • (123) 456-7890
  • +1 123-456-7890
  • +1 (123) 456-7890
Con números de teléfono que estén en un formato más libre, es decir, pueden tener más o menos dígitos, no contener código de país o estar separados por distintos tipos de caracteres. En ese caso, una expresión regular mucho más genérica (pero también más propensa a falsos positivos) podría ser:

Código:
Contenido sólo para usuarios registrados. Por favor inicia sesión o regístrate.

Y para teléfono españoles que comienzan por 6 y por 7 y que pueden contener prefijos (+34):

Código:
Contenido sólo para usuarios registrados. Por favor inicia sesión o regístrate.

Espero que te sirva de ayuda! ;)
 
Mil gracias José por aportar tanto valor. Muy bien explicado, ha resultado sencillo realizar el proceso.
 
Volver
Arriba