Python crawling tutorial
最新的投影片放在 slideshare 上, 會不定期更新, 程式碼可透過這個頁面右邊的 Clone or download 下載
jupyter notebook
進行,安裝完 Anaconda 後即可用內建 jupyter notebook
打開 .ipynb
檔$ pip install selenium tldextract Pillow
pip 是 Python 的套件管理系統,在部份系統裏面會用 pip3
代表 Python3 的版本,請各位依照自己的系統安裝 pip3 後,安裝以下 Python3 版本的套件
# 視情況而定, 使用 pip 或是 pip3
$ pip install requests beautifulsoup4 lxml Pillow selenium tldextract
沒有練習題但會有範例 code 可以執行,可自行選擇是否安裝 (如果安裝 wordcloud 時有問題,可能是沒有下載 visual studio,可以從 warining 中提供的網址下載安裝)
# Anaconda
$ pip install jieba wordcloud
# pip
$ pip3 install numpy pandas matplotlib scipy scikit-learn jieba wordcloud
有些網站會在目錄底下加上 robots.txt, 基本上這就是對方定義的爬蟲規則,請大家在練習爬蟲的時候要尊重對方的規則
Q: 有哪些常用的 API
課堂中有說到,爬蟲只是一種得到資料的手段,如果對方有提供 API 就可以直接使用 API, API 通常對方都會幫你整理好資料格式,或是根據權限決定你可以獲取的資料內容