python 爬虫糗百成人-白红宇

python 爬虫糗百成人

阅读量：6620 次

发布时间：2019-06-25

本文共 2901 字，大约阅读时间需要 9 分钟。

import urllibfrom time import sleepimport requestsfrom lxml import etreetry:    def all_links(url,page):        # if "900.html" in url:        #     print("结束");        #     return None        url = url + str(page) + ".html";        response = requests.get(url)        print(url, response.status_code)        html = etree.HTML(response.content.decode('gbk'))        ## 获取图片 并且保存        imgs = html.xpath('.//div[@id="wrapper"]//div[@class="ui-module"]//img/@src')        for img in imgs:            file_name = img.split('/')[-1]            first = img.split('/')[0]            if first != 'http:' and first != 'https:':                print("错误图片"+img)            else:                dir_path = "/www/spider/images/"                try:                    file_content = requests.get(img)                    if file_content.status_code != 200:                        print(img,"下载失败")                    else:                        #urllib.request.urlretrieve(img, dir_path + file_name)                        with open(dir_path+file_name,"wb") as f:                            f.write(file_content.content)                            print("保存图片" + dir_path + file_name + "成功")                except Exception as ee:                    print(str(ee))        # links = html.xpath('.//div[@class="page"]//a[contains(text(),"下一页")]/@href')        # print(links)        # if len(links) < 1:        #     pass        # else:        sleep(1)        host = 'http://www.qiubaichengren.net/'        next_page = page + 1        all_links(host,next_page)    for i in range(1,991):        all_links("http://www.qiubaichengren.net/",354)except Exception as e:    print(str(e))

循环的版本

import urllib from time import sleep import requests from lxml import etree try:     def all_links(url):         if "100.html" in url:             print("结束");             return None         response = requests.get(url)         print(url, response.status_code)         html = etree.HTML(response.content.decode('gbk'))         ## 获取图片 并且保存         imgs = html.xpath('.//div[@id="wrapper"]//div[@class="ui-module"]//img/@src')         for img in imgs:             file_name = img.split('/')[-1]             first = img.split('/')[0]             if first != 'http:' and first != 'https:':                 print("错误图片"+img)             else:                 dir_path = "d:\\www\\spider\\images\\"                 urllib.request.urlretrieve(img, dir_path + file_name)                 print("保存图片" + dir_path + file_name + "成功")         links = html.xpath('.//div[@class="page"]//a[contains(text(),"下一页")]/@href')         print(links)         if len(links) < 1:             pass         else:             sleep(5)             host = 'http://www.qiubaichengren.net/'             new_url = host + links[0];             all_links(new_url)     all_links("http://www.qiubaichengren.net/8.html") except Exception as e:     print(str(e))

转载地址：http://kgkpo.baihongyu.com/

你可能感兴趣的文章

#51CTO学院四周年# 终于在这里遇到你

查看>>

Java学习笔记 1—命名规则、数据类型、运算符

查看>>

FusionCharts入门教程，使用指南

查看>>

数组的一些方法

查看>>

关于MFC中WM_MOUSEHOVER和WM_MOUSELEAVE消息的使用

查看>>