Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Appearance settings

X3Y-Python/SinaSpider-1

Open more actions menu
 
 

Repository files navigation

SinaSpider

动态IP解决新浪的反爬虫机制,快速抓取微博内容。

Background

抓取1000个公司(在companyList.py文件中)五年内相关的微博,进而统计评论数、转发数、点赞数等等。

Environment

  • Python2.7
  • winxp服务器(通过某宝购买,关键是ADSL拨号功能,不然无法实现动态IP,也就解决不了新浪的反爬虫机制)

Results

  • 每个公司五年内的微博(通过sqlite3存储)

    下面截图为company0000.db的微博。

  • 所有公司微博评论数、转发数、点赞数的统计(excel形式呈现)

References

刚刚(Sun Sep 10 07:51:46 CST 2017)在整理浏览器的书签,因为自己习惯性会把觉得有用的网页存储为书签,所以日积月累,书签的数量已经十分庞大,决定清理一下。清理之前把那些与此项目的网页书签贴在这里吧

  1. 模拟登录新浪微博(Python)
  2. Python验证码识别处理实例 - Python - 伯乐在线
  3. Python验证码识别处理实例 - 林炳文Evankaka的专栏 - CSDN博客
  4. 爬虫怎么解决封IP? - 知乎
  5. 爬虫ip代理服务器的简要思路 - 京东放养的爬虫 - CSDN博客
  6. 关于使用动态轮训切换ip防止爬虫被封杀
  7. python爬虫-爬取代理IP并通过多线程快速验证
  8. OpenCV-Python教程(5、初级滤波内容)
  9. 字符型图片验证码识别完整过程及Python实现
  10. Linux IP代理筛选系统(shell+proxy)
  11. SQLite 连接两个字符串
  12. 取得sqlite数据库里所有的表名 &复制表
  13. python - Beautifulsoup and AJAX-table problem - Stack Overflow
  14. python - How to enable digits only in pytesser? - Stack Overflow
  15. Python 文件读写操作实例详解

About

动态IP解决新浪的反爬虫机制,快速抓取内容。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%
Morty Proxy This is a proxified and sanitized view of the page, visit original site.