Usar scrapy
# Crear proyecto
scrapy startproject nombreProyecto
# Crear clase escrapeadora en la carpeta spiders
# Ejecutar el spider
scrapy crawl nombreIndicadoEnLaClase
## Shell para testing
scrapy shell "http://quotes.toscrape.com/page/1/"
response.css("title::text").get()
Scrapyd Server
#Añadir a la instancia AWS las reglas de entrada (inbound rules)
All TCP 0-65535 0.0.0.0/0
HTTP 80 0.0.0.0/0
#Instalar Scrapyd en EC2
sudo apt update
sudo apt install python3-pip
pip3 --version
sudo pip3 install virtualenv
virtualenv venv
source venv/bin/activate
pip install scrapyd
touch scrapyd.conf
#Copiar esto en scrapyd.conf
Scrapyd client
#Añadir a la instancia AWS las reglas de entrada (inbound rules)
All TCP 0-65535 0.0.0.0/0
HTTP 80 0.0.0.0/0
#Instalar Scrapyd en EC2
sudo apt update
sudo apt install python3-pip
pip3 --version
sudo pip3 install virtualenv
virtualenv venv
source venv/bin/activate
pip install scrapyd
touch scrapyd.conf
#Copiar esto en scrapyd.conf
Heroku
#Crear scrapyd servidor y web para ejecutar los spiders
#Proyecto copiado de https://github.com/harrywang/scrapy-tutorial
#URL servidor
http://scrapy-server-r.herokuapp.com/
#URL web
http://scrapyd-web-r.herokuapp.com (admin / scrapydweb)