Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Appearance settings

Hippolin520/web-crawler-tutorial

Open more actions menu
 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

140 Commits
140 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

  • 註:本課程為 2017 年錄製,部份課程影片因為各大網站/服務變動的關係,影片內容可能過時/失效。但教材程式碼部份會不定時更新修正,購課前請參考 lecture 目錄下各章節講義,確認教材符合您的學習需求。
  • 教材程式碼最後更新日期: 2022/01/05

課程單元

  1. 環境設定與網頁爬蟲初探 (PyCharm 設定,virtualenv 設定,套件安裝,爬蟲初探與例外狀況處理)
  2. 網頁解構與 BeautifulSoup 講解 (寫爬蟲之前的注意事項,BeautifulSoup 重要功能如 find(), find_all() 講解,網頁結構巡覽,正規表示式)
  3. 網頁爬蟲範例實戰 (PTT 八卦版今日熱門文章, Yahoo 奇摩電影本週新片資訊, 兩大報當日焦點新聞, Google Finance 網頁)
  4. 與 API 互動 (API 格式簡介及實例介紹: freegeoip.net, facebook graph api, imdb api, google fianance api)
  5. 資料儲存 (儲存圖片檔、儲存資料到 CSV 檔、儲存資料到資料庫 SQLite)
  6. 各類型文件的爬蟲 (非 UTF-8 編碼的文件及 xml 檔)
  7. 期末專題 (手機比價)
  8. 處理表單及登入頁 (requests.post(), 搭配範例: 台灣證券交易所股票資料及空氣品質監測網)
  9. 處理動態網頁 (Selenium Webdriver)
  10. 中文自然語言處理 (jieba 簡介,斷詞,自訂與繁體字字典,搭配歌詞文字雲範例)
  11. 爬蟲撰寫經驗談 (常被網站封鎖的原因與解法,常見的網站安全措施的處理,如何更換代理 IP,補充教材)

說明

  • 範例程式在各章目錄內, 講義在 lecture 目錄下
  • 範例程式所需套件 pip install -r requirements.txt (Python 3)

About

Python 網頁爬蟲入門實戰

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%
Morty Proxy This is a proxified and sanitized view of the page, visit original site.