您现在的位置是：主页 > news > 亚泰国际建设股份有限公司网站/山西优化公司

亚泰国际建设股份有限公司网站/山西优化公司

admin2025/6/21 13:28:40【news】

简介亚泰国际建设股份有限公司网站,山西优化公司,淘客网站咋做,吉安高端网站建设公司作为scrapy系列的破冰文章，当然需要女神丫丫（压压）场，简单通过十多行代码，便可完成女神图片抓取并储存。看看如何将女神收入麾下： 新建爬虫项目 scrapy startproject scrapy1#进入spiders目录scrapy genspi…

亚泰国际建设股份有限公司网站,山西优化公司,淘客网站咋做,吉安高端网站建设公司作为scrapy系列的破冰文章，当然需要女神丫丫（压压）场，简单通过十多行代码，便可完成女神图片抓取并储存。看看如何将女神收入麾下： 新建爬虫项目 scrapy startproject scrapy1#进入spiders目录scrapy genspi…

作为scrapy系列的破冰文章，当然需要女神丫丫（压压）场，简单通过十多行代码，便可完成女神图片抓取并储存。看看如何将女神收入麾下：

新建爬虫项目

`scrapy startproject scrapy1 #进入spiders目录 scrapy genspider yaya win4000.com`

第一行创建一个scrapy项目，进入spiders目录后，第二行会生成一个spiders的py文件，命名为yaya，win4000.com是我们要抓取网站的域名。

编写items

打开items文件

import scrapy class ImageItem(scrapy.Item): url = scrapy.Field()

items是相当于一个容器，把抓取到的各种信息可以先在这里走个过场，然后方便传到pipelines里，这里只需要导入scrapy，定义一个url就行，这个url就是之后我们抓取到的图片的链接。

编写spider

打开yaya，这是爬虫的核心所在：

import scrapy from scrapy1.items import ImageItem class ImageDlnSpider(scrapy.Spider): name = 'yaya' allowed_domains = ['win4000.com'] start_urls = ['http://www.win4000.com/mt/tongliya.html'] def parse(self, response): img_list = response.xpath("//div[@class='Left_bar']//img/@src").extract() for url_list in img_list: item = ImageItem() item['url'] = [url_list] yield item

这里先把items里的ImageItem类导入，因为我们需要对url字段进行操作，ImageDlnSpider类中，name是爬虫的名字，要保证这是唯一的，allowed_domains允许的域名，start_urls起始的抓取链接，它会调用parse函数，parse函数中便是抓取的过程了，非常简单，使用scrapy已经封装好的xpath，在for循环中实例ImageItem类，把链接赋值于item['url']，再yield出去，yield也是scrapy中非常重要的用法，后面的文章会有介绍。

编写settings

打开settings文件：

ROBOTSTXT_OBEY = False
#不遵守爬虫守约

ITEM_PIPELINES = {
   # 'image.pipelines.ImagePipeline': 300,
'scrapy.pipelines.images.ImagesPipeline':100,
#激活这个管道
}

IMAGES_URLS_FIELD = "url"
#需要下载的图片链接是items里定义的url
IMAGES_STORE = ".\\"
#图片存储地址