博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 爬虫 糗百成人
阅读量:6620 次
发布时间:2019-06-25

本文共 2901 字,大约阅读时间需要 9 分钟。

import urllibfrom time import sleepimport requestsfrom lxml import etreetry:    def all_links(url,page):        # if "900.html" in url:        #     print("结束");        #     return None        url = url + str(page) + ".html";        response = requests.get(url)        print(url, response.status_code)        html = etree.HTML(response.content.decode('gbk'))        ## 获取图片 并且保存        imgs = html.xpath('.//div[@id="wrapper"]//div[@class="ui-module"]//img/@src')        for img in imgs:            file_name = img.split('/')[-1]            first = img.split('/')[0]            if first != 'http:' and first != 'https:':                print("错误图片"+img)            else:                dir_path = "/www/spider/images/"                try:                    file_content = requests.get(img)                    if file_content.status_code != 200:                        print(img,"下载失败")                    else:                        #urllib.request.urlretrieve(img, dir_path + file_name)                        with open(dir_path+file_name,"wb") as f:                            f.write(file_content.content)                            print("保存图片" + dir_path + file_name + "成功")                except Exception as ee:                    print(str(ee))        # links = html.xpath('.//div[@class="page"]//a[contains(text(),"下一页")]/@href')        # print(links)        # if len(links) < 1:        #     pass        # else:        sleep(1)        host = 'http://www.qiubaichengren.net/'        next_page = page + 1        all_links(host,next_page)    for i in range(1,991):        all_links("http://www.qiubaichengren.net/",354)except Exception as e:    print(str(e))

 循环的版本

import urllib from time import sleep import requests from lxml import etree try:     def all_links(url):         if "100.html" in url:             print("结束");             return None         response = requests.get(url)         print(url, response.status_code)         html = etree.HTML(response.content.decode('gbk'))         ## 获取图片 并且保存         imgs = html.xpath('.//div[@id="wrapper"]//div[@class="ui-module"]//img/@src')         for img in imgs:             file_name = img.split('/')[-1]             first = img.split('/')[0]             if first != 'http:' and first != 'https:':                 print("错误图片"+img)             else:                 dir_path = "d:\\www\\spider\\images\\"                 urllib.request.urlretrieve(img, dir_path + file_name)                 print("保存图片" + dir_path + file_name + "成功")         links = html.xpath('.//div[@class="page"]//a[contains(text(),"下一页")]/@href')         print(links)         if len(links) < 1:             pass         else:             sleep(5)             host = 'http://www.qiubaichengren.net/'             new_url = host + links[0];             all_links(new_url)     all_links("http://www.qiubaichengren.net/8.html") except Exception as e:     print(str(e))

 

转载地址:http://kgkpo.baihongyu.com/

你可能感兴趣的文章
#51CTO学院四周年# 终于在这里遇到你
查看>>
Java学习笔记 1—命名规则、数据类型、运算符
查看>>
FusionCharts入门教程,使用指南
查看>>
数组的一些方法
查看>>
关于MFC中WM_MOUSEHOVER和WM_MOUSELEAVE消息的使用
查看>>
我的友情链接
查看>>
Android掌中游斗地主游戏源码完整版
查看>>
LeetCode - 26. 删除排序数组中的重复项
查看>>
Linux LVM逻辑卷配置过程详解
查看>>
rundeck 修改密码 添加节点
查看>>
IT讲师韩顺平:创业不易,尚硅谷延续教育初心
查看>>
IntelliJ IDEA 插件 阿里巴巴Java开发手册
查看>>
利用nmap对Mongodb Redis未授权访问测试
查看>>
CakePHP
查看>>
我的友情链接
查看>>
编译mysql5.6.27
查看>>
搭建centos6.7网站服务器记录
查看>>
Release版本调用ffmpeg av_register_all程序崩溃
查看>>
Referenced management pack not found
查看>>
jquery中data函数的用法示例
查看>>