Vamos a ver cómo descargar una página web completa en nuestro ordenador.
Contenidos
Descargar web con el comando wget
Wget es una herramienta de línea de comandos muy versátil y práctica. En este caso vamos a utilizarla para descargar todo el código fuente de una web (incluyendo los assets: imágenes, JavaScript, etc…)
Aquí el comando:
wget -r -k -p -H -l inf -w 1 --limit-rate=200k -e robots=off --no-check-certificate https://www.webacopiar.com/
Explicación de los parámetros:
-r
: se ejecuta de manera recursiva para descargar todo el sitio entero-k
: convierte los enlaces para visualizar sin conexión-p
: obtiene todos los elementos que componen la página (CSS, imágenes, etc…)-H
: incluye los assets externos-l inf
: se asegura que se descargan todas las páginas del sitio web independientemente del nivel de profundidad en la que se encuentre.-w 1 --limit-rate=200k
: limita la velocidad (1s) y la velocidad de descarga (200k) para no petar el servidor y también evitar baneos.-e robots=off
: indica a wget que ignore los archivos robots.txt y los enlaces nofollow.--no-check-certificate
: no comprueba los certificados SSLhttps://www.webacopiar.com/
: la dirección de la web a copiar
Puedes adecuar los parámetros a tus necesidades. Para ver la lista completa de parámetros y su descripción ejecuta wget --help
, también puedes verlos en la documentación.
Wget no renderiza la web por lo que el contenido ejecutado en JavaScript no se descargará. Un ejemplo de esto son las imágenes que se cargan de manera perezosa (lazy). Estas no se descargarán ya que son cargadas mediante JavaScript.
Este comando descarga la web completamente. Si la web es muy grande quizá deberías plantearte restringir la descarga (recursos externos, imágenes, etc.). Revisa los parámetros del comando wget para ello.
Instalar wget en Windows
Descargar el ejecutable (.exe) desde la web eternallybored. Copiarlo a un directorio donde lo tengamos localizado. Yo he optado por crear una carpeta en «Archivos de Programa» y lo he copiado ahí.

Agregar el ejecutable como una variable de entorno para poder usarlo desde la consola directamente escribiendo wget y no tener que escribir la ruta completa.

Una vez añadido como variable de entorno ya podemos ejecutarlo en la consola de Windows (CMD)

Otras herramientas para descargar el contenido de una web
- websitedownloader.io: herramienta online (de pago)
- httrack: herramienta de interfaz gráfica para Linux, Android y Windows (gratuita)
- Website-downloader: proyecto open source que utiliza wget
Herramientas para descargar contenido desde Archive.org
- Wayback Machine Downloader: herramienta open source desarrollada en Ruby
- Wayback downloader: herramienta de pago con integración con WordPress
- Archivarix: de pago a partir de 200 archivos
Esto es todo.
WOW!!!! acabo de encontrar tu blog y estoy flipando con la cantidad de contenido útil. Porfavor sigue publicando, aunq sean experimentos jajajajaja😂👌👌👍👍
❤️