今天来总结一下在爬虫遇到的特殊情况,利用正则或者xpath来匹配提取数据,偶尔会发现可以找到这个对象,却无法提取它的下一阶层的数据,这是怎么一回事?
自己分析结果有以下几种:
(1)自己的匹配写错了,怎么可能,我再三检查,对的不能再对了,排除这种情况,毕竟是本宝宝写的,谁还没有点小自信了。
(2)可能是User-Agent浏览器版本不兼容,遇到这种情况要注意了,先检查一下自己爬取的数据,看看是不是被注释了,这是一种简单反爬技术,哼,这能难倒我?天真!解决办法:1去掉User-Agent2更换IE的User-Agent,可惜我还是没能解决,那么就只能是第三种情况了
第二种情况如下:
(3)百度个小婊砸,居然把我想要爬取的数据的div隐藏了:
在浏览器检查元素,可以清楚的看到自己想要爬取的数据,就在那就在那,看的见摸不着,再看看自己爬下来的数据,居然变成空的了,哼,今天本宝宝铁了心也要爬下来,我直接复制网页源代码还不行吗?
万万想不到啊,道高一尺魔高一丈,跟百度斗,果然我还是嫩啊,网页源代码下载下来居然还是空的,我的心情真是草泥马了,没办法,滋滋滋,再强大的网站也抵挡不了一下誓死要爬取的心,解决如下:
哎,主要自己太菜了,只能将要爬取的内容复制下来,然后提取,这真是一次失败的爬虫经历 !呜呜呜