网络爬虫

逆向破解访客2021-10-11 13:09:003305A⁺A^-

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

随着网络的迅速发展，万维网成为大量的信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。因为爬虫技术造成的大量IP访问网站侵占带宽资源、以及用户隐私和知识产权等危害，很多互联网企业都会花大力气进行“反爬虫”。

相比爬虫技术本身，反爬虫其实更加复杂，发展历程也更加有趣。就拿电商网站来说，很多电商网站是愿意被比价网站或者其他购物信息网站爬取信息的，因为这样能够给他们的商品带来更多流量。但他们不愿意被其他电商网站获取价格信息和商品描述，因为担心其他电商网站恶意比价或进行抄袭。同时他们又经常去爬其他电商网站的数据，希望能够看到别人的价格。

在90年代开始有搜索引擎网站利用爬虫技术抓取网站时，一些搜索引擎从业者和网站站长通过邮件讨论定下了一项“君子协议”—— robots.txt。即网站有权规定网站中哪些内容可以被爬虫抓取，哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息，又可以被搜索引擎收录、增加流量。

爬虫技术刚刚诞生时我们的技术还不是很完善，大多数从业者都会默守“君子协定”，毕竟那时候信息和数据都没什么油水可捞。但很快互联网上开始充斥着商品信息、机票价格、个人隐私等等，在利益的诱惑下，自然有些人会开始违反爬虫协议了。可以说爬虫技术和反爬虫技术之间争斗了十几年，可真正的“战争”，却从现在才刚刚开始。

点击这里复制本文地址以上内容由黑资讯整理呈现，请务必在转载分享时注明本文地址！如对内容有疑问，请联系我们，谢谢！

网络爬虫

上一篇：为“安全数据爆炸”做好准备

下一篇：新型“影子攻击”绕过数字签名篡改PDF文件

5条评论

野欢顾执2022-06-09 14:35:24
商网站获取价格信息和商品描述，因为担心其他电商网站恶意比价或进行抄袭。同时他们又经常去爬其他电商网站的数据，希望能够看到别人的价格。在90年代开始有搜索引擎网站利用爬虫技术抓取网站时，一些搜索引擎从业者和

酒奴殊姿2022-06-09 06:39:51
有效地提取并利用这些信息成为一个巨大的挑战。因为爬虫技术造成的大量IP访问网站侵占带宽资源、以及用户隐私和知识产权等危害，很多互联网企业都会花大力气进行“反爬虫”。相比爬虫技术本身，反爬虫其实更加复杂，发展历程也更加有趣。就拿电商网站来说，很多电商网站是

弦久望喜2022-06-09 05:07:43
网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网成为大量的

竹祭瑰颈2022-06-09 12:48:39
网站有权规定网站中哪些内容可以被爬虫抓取，哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息，又可以被搜索引擎收录、增加流量。爬虫技术刚刚诞生时我们的技术还不是很完善，大多数从业者都会默守“君子协定”，毕竟那时候信息和数据都没什么油水可捞。但很快互联网上开始充斥着商品信息、机票价格、个人隐私

双笙忿咬2022-06-09 10:10:40
蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网成为大量的信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。因为爬虫技术造成的大量IP访问网站侵占

发表评论

网络爬虫

相关文章