锦尚壹 资源
查看: 364|回复: 0

[其他精品软件] 原创:Python爬虫实战之爬取美女照片

[复制链接]

1876

主题

1873

帖子

2301

积分

超级版主

Rank: 8Rank: 8

积分
2301
发表于 2020-9-12 14:27:50 | 显示全部楼层 |阅读模式
这个素材是出自小甲鱼的python教程,但源码全部是我原创的,所以,猥琐的不是我
  注:没有用header(总会报错),暂时不会正则表达式(马上要学了),以下代码可能些许混乱,不过效果还是可以的。
  爬虫目标网站:http://jandan.net/ooxx/ #如有侵权请联系我
  代码如下
1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 import urllib.request 4 import base64 5 import time 6 7 url_a = 'http://jandan.net/ooxx/'#网站前一部分 8 need = '20200217-'#后一部分 9 need_a = 147#后一部分的后一部分10 11 12 def base(word):#base64编码13     outcome = base64.b64encode(word.encode("utf-8"))#编码后14     url = url_a + outcome.decode('utf-8') + '#comments'15     web(url)16 17 def web(url):18     response = urllib.request.urlopen(url)19     html = response.read().decode('utf-8')20     a = html.find('<img src="//')#从这个下标开始21     i = 0#用来区别文件名22     while a != -1:23         b = html.find('.jpg',a,a+250)#到这个下标为止24         if b != -1:25             c = 'http://' + html[a+12:b+4]#图片网址    26             name = 'picture\\' + str(i) + str(need_a) + '.jpg'#文件名27             get_jpg(c,name)28         else:29             b = a + 1230         a = html.find('<img src="//',b)#循环查找31         i += 132 33 def get_jpg(address,filename):34     get = urllib.request.urlopen(address)#打开新网址35     jpg = get.read()36     with open(filename,'wb') as f:#写入图片37         f.write(jpg)38     print("Succeed!")39 40 while need_a >=100:#逐减41     addition = need + str(need_a)42     base(addition)43     need_a -= 144     time.sleep(10)#停顿防止被反爬




上一篇:VMware虚拟机各版本密钥
下一篇:封装windows镜像时sysprep可用重置次数超过系统限制的解决办法
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|锦尚壹 资源论坛 PDF电子书免费下载 破解软件 滇ICP备14004426号-1

GMT+8, 2021-1-24 09:48 , Processed in 0.577105 second(s), 57 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表