咖啡日语论坛

 找回密码
 注~册
搜索
查看: 31|回复: 0

知晓简述python爬虫原理:如何用爬虫爬取数据

[复制链接]
发表于 2022-10-30 19:25:36 | 显示全部楼层 |阅读模式

互联+时代来了,各种新的技术应孕而生,对于互联而言,如果我们把互联比作一张大的蜘蛛,数据便是存放于蜘蛛的各个节点,而爬虫就是一只小蜘蛛,沿着络抓取自己的猎物(数据)爬虫指的是:向发起请求,获取资源后分析并提取有用数据的程序,存放起来使用。络爬虫是什么?编程入门培训的相关资讯可以到我们网站了解一下,从专业角度出发为您解答相关问题,给您优质的服务!



络爬虫是一种用来抓取页资源的程序工具。像谷歌,百度等知搜索引擎就是采用络爬虫把全的页资源收集起来,建立索引,用于搜索。


络爬虫现原理


互联页可以看成是一张超大图,每个页是一个节点,页中指向其他页的链接是边。那么,可以这样现全页收集:以某一个页为起点,下载并处理该页,解析里面的链接,所得的URL加入下载队列。这个过程其就是图的遍历过程,可以是深度先或者广度先遍历,取决于下载队列如何维护。简单地,络爬虫可以由以下部分组成:


1、下载模块


对于一个给定的URL,下载该页。如果从零开始现,工作量还是挺大的:解析URL里面的域并通过DNS查询域对应的IP;建立一个到该IP的TCP连接;发送一个HTTP请求;接收并解析HTTP响应;保存该页资源。说白了,就是给定一个URL,用HTTP协议请求一个页资源的过程。


2、下载队列


下载队列保存从页中解析出来将用于获取页资源的URL:每次从下载队列里面取出一个URL,通过下载模块下载该页,解析该页里面的URL并加入下载队列,这样就可以源源不断地进行页抓取。如果用FIFO现下载队列,那么对页资源的遍历就是广度先的;如果用LIFO现下载队列,那么对页资源的遍历就是深度先的。


3、重复检查


如果某个页里面包含了已经下载的页的URL怎么办呢?肯定不能再重复下载一次。如何避免就是重复检查模块要做的事。可以用一个把所有遇到的URL记录下来,每次下载模块获取一个页,将其URL放到该;解析页所获得的URL,如果在该中已经存在了,就不要加入下载队列了。当然了,这只是比较直白的现方式,工程上为了应对大量的URL,一般采用布隆过滤器。


爬虫爬行策略


我们已经介绍了,聚焦络爬虫,需要确定URL的先级,即爬虫应该先爬取哪一个,后爬取哪一个?爬行策略主要有:深度先爬行策略、广度先爬行策略、大站先爬行策略、反链策略、其他爬行策略等。假如此时页ABCDEFG都在爬行队列中,那么按照不同的爬行策略,其爬取的顺序是不同的。比如按照深度先的顺序,爬取顺序可能是A-D-E-B-C-F-G;按照广度先的爬行策略,爬行顺序可能是A-B-C-D-E-F-G。我们也可以采用大站爬行策略。我们可以按对应页所属的站点进行归类,如果某个的页数量多,那么则称其为大站,按照这种策略,页数量越多的先级越高。


一个的反链接数,指的是被其他页指向的次数,这个次数在一定程度上代表着该页被其他页的推荐次数。所以,如果按反链策略去爬行的话,所以如果按反链策略去爬行的话,那么哪个页的先级越高。其他爬行策略还有很多,比如:OPIC策略,PPR策略等。


页更新策略


一个的页经常会更新,作为爬虫方,在页更新后,我们则需要对这些页进行重新爬取,那么什么时候去爬取合适呢?如果更新过慢,而爬虫爬取的过于频繁,则会带来服务器资源的浪费。若更新过,但爬虫提取的时间间隔较长,则我们爬去的内容版本会过老,不利于新内容的爬取。显然,的更新频率与爬虫访问的频率越接近,则效果越好,当然,爬虫服务器资源有限的时候,此时爬虫也需要根据对应的策略,让不同页具有不同的更新先级,先极高的页更新,将获得较的爬取响应。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注~册

本版积分规则

小黑屋|手机版|咖啡日语

GMT+8, 2025-1-26 18:51

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表