您现在的位置是:主页 > news > 抓取网站源码怎么做镜像/可口可乐网络营销案例

抓取网站源码怎么做镜像/可口可乐网络营销案例

admin2025/5/14 13:27:57news

简介抓取网站源码怎么做镜像,可口可乐网络营销案例,网页游戏梦幻西游,网易免费企业邮箱登录入口很简单的两步: 1、获取网页源代码 2、利用正则表达式提取出图片地址 3、下载 1 #!/usr/bin/python2 #codingutf83 import re # 正则表达式4 import urllib # 获取网页源代码5 6 # 用正则表达式写一个小爬虫用于保存贴吧里的所有图片7 8 # 获取网页源代码9 d…

抓取网站源码怎么做镜像,可口可乐网络营销案例,网页游戏梦幻西游,网易免费企业邮箱登录入口很简单的两步: 1、获取网页源代码 2、利用正则表达式提取出图片地址 3、下载 1 #!/usr/bin/python2 #codingutf83 import re # 正则表达式4 import urllib # 获取网页源代码5 6 # 用正则表达式写一个小爬虫用于保存贴吧里的所有图片7 8 # 获取网页源代码9 d…

很简单的两步:

  1、获取网页源代码

  2、利用正则表达式提取出图片地址

  3、下载

 

 1 #!/usr/bin/python
 2 #coding=utf8
 3 import re       # 正则表达式
 4 import urllib   # 获取网页源代码
 5 
 6 # 用正则表达式写一个小爬虫用于保存贴吧里的所有图片
 7 
 8 # 获取网页源代码
 9 def getHtml(url):
10         page = urllib.urlopen(url)      # 打开url,返回页面对象
11         html = page.read()              # 读取页面源代码
12         return html
13 
14 # 获得图片地址
15 def getImg(html):
16         reg = r'src="(.*?\.jpg)" size="'        # 定义一个正则来匹配页面当中的图片
17         imgre = re.compile(reg)         # 为了让正则更快,给它来个编译
18         #这个时候做个测试,把匹配的数据都给打印出来
19         imglist = re.findall(imgre, html)                       # 通过正则返回所有数据列表
20         # 把这个地址一个一个的拿下来进行下载
21         x = 0 
22         for imgurl in imglist:
23                 urllib.urlretrieve(imgurl,'%s.jpg' % x)
24                 x+=1
25 
26 html = getHtml("https://tieba.baidu.com/p/5154221980")
27 getImg(html)

 

转载于:https://www.cnblogs.com/fallenmoon/p/6987589.html