Raspagem De Dados Para Iniciantes Save

Raspagem de dados para iniciante usando Scrapy e outras libs básicas

Project README

GitHub license

Generic badge

Raspagem de dados para iniciantes :page_facing_up:

Esse repositório foi construido para ajudar qualquer interessado pela área de Raspagem de dados, todo o repositório será em PT-BR, mas os links/documentação podem estar em inglês (compartilhe se você possuir algo traduzido).

Instalação :floppy_disk:

Uso Python versão 3.7

As principais libs que vamos usar aqui são:

  • requests
  • bs4 (BeautifulSoup)
  • Scrapy

Para isso você só precisa instalar algumas bibliotecas, no seu Terminal escreva:

pip install -r requirements.txt

Recomendações

Use o ambiente virtual do Python para programar independente de plataforma.

  • Criação:
python3 -m venv venv
  • Ativação (muda conforme S.O):
source venv/bin/activate
  • Dependências:
pip install -r requirements.txt

Jupyter notebooks

Iremos usar Jupyter notebooks aqui, então se você não tem com a ferramenta, visite a documentação.

Trilha para o tutorial: :mortar_board:

  1. Aprendendo a extrair o texto de um Site
  2. Primeira Spider
  3. Raspagem múltipla
  4. Navegando entre paginas
  5. Coletando mais detalhes
  6. Raspagem em site com Infinite Scroll
  7. Rodando Spider na nuvem
  8. Extração de imagens

Materiais de estudo:

Blogs: :computer:

Livros: :books:

Documentação: :scroll:

Podcasts: :headphones: :musical_note:

Vídeos: :tv:

Open Source Agenda is not affiliated with "Raspagem De Dados Para Iniciantes" Project. README Source: DwarfThief/Raspagem-de-dados-para-iniciantes

Open Source Agenda Badge

Open Source Agenda Rating