网络爬虫

网络爬虫

逆向破解访客2021-10-11 13:09:003255A+A-

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

随着网络的迅速发展,万维网成为大量的信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。因为爬虫技术造成的大量IP访问网站侵占带宽资源、以及用户隐私和知识产权等危害,很多互联网企业都会花大力气进行“反爬虫”。

相比爬虫技术本身,反爬虫其实更加复杂,发展历程也更加有趣。就拿电商网站来说,很多电商网站是愿意被比价网站或者其他购物信息网站爬取信息的,因为这样能够给他们的商品带来更多流量。但他们不愿意被其他电商网站获取价格信息和商品描述,因为担心其他电商网站恶意比价或进行抄袭。同时他们又经常去爬其他电商网站的数据,希望能够看到别人的价格。

在90年代开始有搜索引擎网站利用爬虫技术抓取网站时,一些搜索引擎从业者和网站站长通过邮件讨论定下了一项“君子协议”—— robots.txt。即网站有权规定网站中哪些内容可以被爬虫抓取,哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息,又可以被搜索引擎收录、增加流量。

爬虫技术刚刚诞生时我们的技术还不是很完善,大多数从业者都会默守“君子协定”,毕竟那时候信息和数据都没什么油水可捞。但很快互联网上开始充斥着商品信息、机票价格、个人隐私等等,在利益的诱惑下,自然有些人会开始违反爬虫协议了。可以说爬虫技术和反爬虫技术之间争斗了十几年,可真正的“战争”,却从现在才刚刚开始。

点击这里复制本文地址 以上内容由黑资讯整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
  • 5条评论
  • 野欢顾执2022-06-09 14:35:24
  • 商网站获取价格信息和商品描述,因为担心其他电商网站恶意比价或进行抄袭。同时他们又经常去爬其他电商网站的数据,希望能够看到别人的价格。在90年代开始有搜索引擎网站利用爬虫技术抓取网站时,一些搜索引擎从业者和
  • 酒奴殊姿2022-06-09 06:39:51
  • 有效地提取并利用这些信息成为一个巨大的挑战。因为爬虫技术造成的大量IP访问网站侵占带宽资源、以及用户隐私和知识产权等危害,很多互联网企业都会花大力气进行“反爬虫”。相比爬虫技术本身,反爬虫其实更加复杂,发展历程也更加有趣。就拿电商网站来说,很多电商网站是
  • 弦久望喜2022-06-09 05:07:43
  • 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展,万维网成为大量的
  • 竹祭瑰颈2022-06-09 12:48:39
  • 网站有权规定网站中哪些内容可以被爬虫抓取,哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息,又可以被搜索引擎收录、增加流量。爬虫技术刚刚诞生时我们的技术还不是很完善,大多数从业者都会默守“君子协定”,毕竟那时候信息和数据都没什么油水可捞。但很快互联网上开始充斥着商品信息、机票价格、个人隐私
  • 双笙忿咬2022-06-09 10:10:40
  • 蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展,万维网成为大量的信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。因为爬虫技术造成的大量IP访问网站侵占

支持Ctrl+Enter提交

黑资讯 © All Rights Reserved.  
Copyright Copyright 2015-2020 黑资讯
滇ICP备19002590号-1
Powered by 黑客资讯 Themes by 如有不合适之处联系我们
网站地图| 发展历程| 留言建议| 网站管理