设计爬虫时,通常都回避动态网页(如Charkabarti,Joshi,Punera,&Pennock,2002)。识别动态网页时,只需要看URL中是否出现问号,含问号的就是动态网页。忽略动态网页是因为它们容易造成蜘蛛陷阱。蜘蛛陷阱理论上是一个无限的网页集合,而蜘蛛永远不能完整地遍历这个集合。在线日历就是一个容易被忽略的蜘蛛陷阱,它生成的动态网页中可以标上任何日期,并包含指向后一天网页的链接。一个爬虫从这个日历中找到一个网页后,便会无止境地请求后一天的网页。
动态的页面(url)属于蜘蛛陷阱,搜索引擎蜘蛛一旦爬行进入,很有可能会出不来、或是难以流畅的抓取,所以建议网页一定是静态或是经过伪静态处理的

本站文章均为永诺网站建设摘自权威资料,书籍,或网络原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,我们欢迎您分享,引用和转载,我们谢绝直接复制和抄袭!感谢...
猜你喜欢
联络方式:
电话:15038330582
邮箱:278477169@qq.com
扫描名片

我们猜你喜欢
-
工业方面物联网解决方案APP软件
在工业方面上实现工业化的APP管理开发,具有轻量化,定制化,专业化,灵活性和复用的特点。用户复用工业APP也会被赋能,机器复用工业APP实现快速的优化,工业复用APP软件实现对制造...
-
全网营销推广怎么做
全网整合营销策划推广怎么做才更有效?随着互联网的发展,全网营销策划推广已经不仅仅是传统意义上的只是在百度以及淘宝京东上面做。然后全网营销应该是全网整合营销,旨在实...
-
如何建立自己的微信小程序-在微信里弄个小程序多少钱
微信是大多数人都在使用的社交软件,流量大的几乎每人都在使用,可见流量的入口是非常的可观的。微信小程序的是不用下载软件就能直接使用的小程序,无论是互联网企业还是传统...
-
网站被黑了怎么处理
网站被黑应该怎么正确的处理?网站被黑是最最最最常见的事情,特别是一些商业类型的网站,网站被黑有两个原因:1、被竞争对手恶意报复。2、是被博彩,赌博等违法网站挂黑链。网站被黑...
-
客户成交率做到100%的一些方法
成交是每个企业都梦寐以求的,而成交率因企业的实力、销售能力不同而大有不同,我见过成交率低的,几乎没有成交,结果没多久公司倒闭了。成交率高的做到了100%,我在群里跟朋友们...