设计爬虫时,通常都回避动态网页(如Charkabarti,Joshi,Punera,&Pennock,2002)。识别动态网页时,只需要看URL中是否出现问号,含问号的就是动态网页。忽略动态网页是因为它们容易造成蜘蛛陷阱。蜘蛛陷阱理论上是一个无限的网页集合,而蜘蛛永远不能完整地遍历这个集合。在线日历就是一个容易被忽略的蜘蛛陷阱,它生成的动态网页中可以标上任何日期,并包含指向后一天网页的链接。一个爬虫从这个日历中找到一个网页后,便会无止境地请求后一天的网页。
动态的页面(url)属于蜘蛛陷阱,搜索引擎蜘蛛一旦爬行进入,很有可能会出不来、或是难以流畅的抓取,所以建议网页一定是静态或是经过伪静态处理的

本站文章均为永诺网站建设摘自权威资料,书籍,或网络原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,我们欢迎您分享,引用和转载,我们谢绝直接复制和抄袭!感谢...
猜你喜欢
联络方式:
电话:15038330582
邮箱:278477169@qq.com
扫描名片
我们猜你喜欢
-
知识付费APP软件定制开发
知识付费小程序是一种应用程序,可以让用户通过付费获得特定领域的知识或技能...
-
如何提高dedecms网站的安全性
DEDECMS安全性终极设置1、需要设置 可读写不可执行 的目录为:data、templets、uploads、a目录;2、需要设置为 可读可执行不可写入 的目录为:include、member、plus、后台管理目...
-
美丽天天秒app开发商城分销系统2+1链动模式
一、美丽天天秒分销app系统软件项目介绍 链动2+1模式玩法是基于社交分享的团队裂变模式,凭借链动的模式进行裂变激励用户,逐步的覆盖了多个行业。链动2+1的分销系统模...
-
消防灭火微信小程序开发
智能消防小程序能让火灾的事故减少到最小,人们的防火意识增强后就会降低一些火灾的发生,开发一款智能防火的小程序软件需要什么样的功能呢。 智慧消防小程序开发怎么做...
-
响应式自适应网站的优点-缺点大PK
近年来,各种大屏幕移动设备的普及,响应式网站也受到了更多人的青睐。甚至大多数的人认为,响应式网站是实现友好移动目标,更好、更快、更省的方案。通俗的说,就是一个网站可以兼容...
