Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Appearance settings

simple2source/fetch_crwal

Open more actions menu

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

抓取系统

PS:本文档已经迁移至tech-doc:https://git.oschina.net/hick/tech-doc/blob/master/python.md

TODO

  • 进程的执行信息统一到一个文件中记录, 取代或者说替换现在的 /data/fetch/51job_successtask_51_TASK_ID.txt 的功能, 记录信息需要包括但不限于: 抓取的号段信息, 启动时间, 最后成功抓取的时间, 最近一段时间抓取的效率指标(根据具体情况看什么指标好计算, 比如最近1个小时抓取数, id命中率), 使用登录账户的信息(登录时间/账号名/是否已过期等)
  • 需要提供 web 服务(http协议方式访问, 命令行方式提供, 由 init.php 来调用也可以), 接受简历来源和 id 参数, 可以随时抓取指定的 id 并返回简历 id/电话号码(如果有)
  • 可以先知考虑单机, 但是以后可能要扩充到多机: 需要有任务池, 登录用户池, 整体的抓取速度/每个用户的抓取速度等多维度可以有封顶限制
  • 运行python抓取进程的时候,存在多个进程对task文件任务数进行重复抓取,[解决设想] -- 检测生成对应的pid文件进行判定
优先级 标题 详细说明
3 目录结构优化 TODO
2 运行监控 TODO

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

Morty Proxy This is a proxified and sanitized view of the page, visit original site.