¿Cómo descargar una web?

Vamos a ver cómo descargar una página web completa en nuestro ordenador.

Descargar web con el comando wget

Wget es una herramienta de línea de comandos muy versátil y práctica. En este caso vamos a utilizarla para descargar todo el código fuente de una web (incluyendo los assets: imágenes, JavaScript, etc…)

Aquí el comando:

wget -r -k -p -H -l inf -w 1 --limit-rate=200k -e robots=off --no-check-certificate https://www.webacopiar.com/

Explicación de los parámetros:

-r: se ejecuta de manera recursiva para descargar todo el sitio entero
-k: convierte los enlaces para visualizar sin conexión
-p: obtiene todos los elementos que componen la página (CSS, imágenes, etc…)
-H: incluye los assets externos
-l inf: se asegura que se descargan todas las páginas del sitio web independientemente del nivel de profundidad en la que se encuentre.
-w 1 --limit-rate=200k: limita la velocidad (1s) y la velocidad de descarga (200k) para no petar el servidor y también evitar baneos.
-e robots=off: indica a wget que ignore los archivos robots.txt y los enlaces nofollow.
--no-check-certificate: no comprueba los certificados SSL
https://www.webacopiar.com/: la dirección de la web a copiar

Puedes adecuar los parámetros a tus necesidades. Para ver la lista completa de parámetros y su descripción ejecuta wget --help, también puedes verlos en la documentación.

Wget no renderiza la web por lo que el contenido ejecutado en JavaScript no se descargará. Un ejemplo de esto son las imágenes que se cargan de manera perezosa (lazy). Estas no se descargarán ya que son cargadas mediante JavaScript.

Este comando descarga la web completamente. Si la web es muy grande quizá deberías plantearte restringir la descarga (recursos externos, imágenes, etc.). Revisa los parámetros del comando wget para ello.

Instalar wget en Windows

Descargar el ejecutable (.exe) desde la web eternallybored. Copiarlo a un directorio donde lo tengamos localizado. Yo he optado por crear una carpeta en «Archivos de Programa» y lo he copiado ahí.

wget.exe guardado en Archivos de programa

Agregar el ejecutable como una variable de entorno para poder usarlo desde la consola directamente escribiendo wget y no tener que escribir la ruta completa.

Añadir wget como variable de entorno

Una vez añadido como variable de entorno ya podemos ejecutarlo en la consola de Windows (CMD)

Ejecutar wget en la consola de Windows

Otras herramientas para descargar el contenido de una web

Herramientas para descargar contenido desde Archive.org

Esto es todo.

2 comentarios en «¿Cómo descargar una web?»

  1. WOW!!!! acabo de encontrar tu blog y estoy flipando con la cantidad de contenido útil. Porfavor sigue publicando, aunq sean experimentos jajajajaja😂👌👌👍👍

    Responder

👇Tu comentario