learn_python3_spider/dangdang_top_500.py at master · Daemoer/learn_python3_spider

History

49 lines (38 loc) · 1.41 KB

Raw

import requests

import re

import json

def request_dandan(url):

try:

response = requests.get(url)

if response.status_code == 200:

return response.text

except requests.RequestException:

return None

def parse_result(html):

pattern = re.compile(

'<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">¥(.*?)</span>.*?</li>',

re.S)

items = re.findall(pattern, html)

for item in items:

yield {

'range': item[0],

'iamge': item[1],

'title': item[2],

'recommend': item[3],

'author': item[4],

'times': item[5],

'price': item[6]

}

def write_item_to_file(item):

print('开始写入数据 ====> ' + str(item))

with open('book.txt', 'a', encoding='UTF-8') as f:

f.write(json.dumps(item, ensure_ascii=False) + '\n')

def main(page):

url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)

html = request_dandan(url)

items = parse_result(html) # 解析过滤我们想要的信息

for item in items:

write_item_to_file(item)

if __name__ == "__main__":

for i in range(1, 26):

main(i)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Expand file tree

Search code, repositories, users, issues, pull requests...

FilesExpand file tree

dangdang_top_500.py

Latest commit

History

dangdang_top_500.py

File metadata and controls

Expand file tree