爬取贴吧图片

2019-01-15

一直有在贴吧白嫖漫画的习惯，正好最近又在看Python爬虫，于是无聊就想把每个帖子里的漫画都下载到本地。思路是先分析爬取一页帖子内的漫画图片，然后再分析爬取精品栏内所有帖子的漫画图片。

目标：爬取我的英雄学院百度贴吧精品贴漫画图片
工具：Python Chrome

第一步：爬取当前目标帖子内的所有图片

目标帖子URL：https://tieba.baidu.com/p/5993286218?see_lz=1

开启只看楼主，发现页数不超过一页，所以不用翻页操作，只需爬取当前一页图片即可。打开Chrome开发者工具，观察发现网页原始返回信息中就包含图片链接，所以直接使用requests库GET请求目标帖子URL，再使用PyQuery库解析返回的网页源码即可获取图片链接，然后再下载图片到本地。

使用Chrome开发者工具分析网页源码，可以发现：

帖子所有楼层信息都存在一个class=“p_postlist"的div标签中
每层楼的信息存在class=“l_post"的div标签中
每层楼中图片链接是class=“d_post_content"的div标签中img标签的src属性

分析完源码后开始编写爬虫代码：

定义get_one_page(url)方法，使用requests库获取当前目标页面的网页源码（try-except防止网页请求错误，导致程序终止）

 1import requests
 2from requests.exceptions import RequestException
 3
 4def get_one_page(url):
 5    try:
 6        url = url
 7        response = requests.get(url)
 8        return response.text
 9    except RequestException:
10        print('第'+page_number+'页，网页请求失败')

定义parse_one_page(html)方法，使用pyquery库解析当前网页源码。根据上面的分析，使用css选择器**’#pb_content .p_postlist .l_post .BDE_Image’**获取全部img标签，并返回img标签的生成器（方便后面循环调用）
```
1from pyquery import PyQuery as pq
2
3def parse_one_page(html):
4    doc = pq(html)
5    images = doc('#pb_content .p_postlist .l_post .BDE_Image').items()
6    return images
```

定义get_title(html)方法，同样使用pyquery库获取当前帖子标题，方便后续把每个帖子的图片存入名称为帖子名的文件夹中

1from pyquery import PyQuery as pq
2
3def get_title(html):
4    doc = pq(html)
5    title = doc('#j_core_title_wrap > h3').text()
6    return title

定义download_images_to_folder(images,html)方法，使用获取的图片链接下载图片到名称为帖子名的文件夹中。首先获取帖子名称建立文件夹，再循环遍历parse_one_page(html)方法返回的生成器，获取每个img标签的src属性，并下载该图片到文件夹中，图片名按顺序为1-n

 1import requests
 2from requests.exceptions import RequestException
 3from pyquery import PyQuery as pq
 4import os
 5
 6def download_images_to_folder(images,html):
 7    title = get_title(html)
 8    if not os.path.exists(title):
 9        os.mkdir(title)
10    try:
11        i = 1
12        for image in images:
13            response = requests.get(image.attr.src) 
14            image_path = '{0}/{1}.jpg'.format(title,i)      
15            with open(image_path,'wb') as f:
16                f.write(response.content)
17            print('保存'+title+'第'+str(i)+'张图片成功')
18            i = i + 1
19    except RequestException:
20        print('保存图片失败')

定义main()方法测试一下，成功获取目标网页图片

1def main():
2    html = get_one_page(url)
3    download_images_to_folder(parse_one_page(html),html)
4
5if __name__ == '__main__':
6    main()

运行结果： Crepe

第二步：爬取贴吧精品栏中所有帖子的图片

目标帖子URL：https://tieba.baidu.com/f?kw=%E6%88%91%E7%9A%84%E8%8B%B1%E9%9B%84%E5%AD%A6%E9%99%A2&ie=utf-8&tab=good

在我的英雄学院吧的精品栏中发现，帖子前缀名为*【雄英支援科】* 的帖子是含有漫画图片的，每页精品栏的URL的差别为末尾的参数&cid=&pn=offset ，offset是50的倍数，所以只要获得每页精品栏中所有前缀名为*【雄英支援科】* 的帖子URL即可。

同样分析目标网页源码：

id=“thread_list"的ul标签包含该页所有帖子的简略信息
class=“j_thread_list"的li标签包含每个帖子的简略信息
每个帖子链接是class=“threadlist_title"的div标签中a标签的href属性分析完源码后开始编写爬虫代码：

同上获取并解析目标URL的源码。使用css选择器**’#thread_list .j_thread_list .threadlist_title a’**获取所有包含链接信息的a标签，调用它的href属性获取帖子链接的后半部分，再通过字符串的组合得到完整链接后，判断是否是含有漫画图片的帖子链接（直接通过名字中是否含有【雄英支援科】判断），返回每个含有漫画图片帖子URL的生成器

 1import requests
 2from pyquery import PyQuery as pq
 3
 4def get_one_page_url(first_url):
 5    html = get_one_page(first_url)
 6    doc = pq(html)
 7    items_a = doc('#thread_list .j_thread_list .threadlist_title a').items()  
 8    for a in items_a:
 9        href = a.attr.href
10        everyone_url = 'https://tieba.baidu.com'+ href +'?see_lz=1'
11        if a.attr.title[:7] == '【雄英支援科】':
12            yield (everyone_url)

定义main()方法，爬去所有爬取精品贴中所有帖子的漫画图片。通过观察精品贴不同页数的链接规律，使用offset参数构造每页精品贴的链接，再调用多线程快速爬取。

 1from multiprocessing.pool import Pool
 2
 3def main(offset):
 4    url_good = 'https://tieba.baidu.com/f?kw=%E6%88%91%E7%9A%84%E8%8B%B1%E9%9B%84%E5%AD%A6%E9%99%A2&ie=utf-8&tab=good&cid=&pn=' + str(offset)
 5    for url in get_one_page_url(url_good):
 6        html = get_one_page(url)
 7        download_images_to_folder(parse_one_page(html),html)
 8
 9if __name__ == '__main__':
10    pool = Pool()
11    pool.map(main,[i*50 for i in range(4)])

运行结果： Crepe

总结

其实只是简单爬取了我的英雄学院贴吧精品栏中帖子前缀名是*【雄英支援科】* 的所有帖子中的漫画图片，并按帖子名称分文件夹保存。源码链接