为什么80%的码农都做不了架构师?>>>
网络爬虫记录《企业工商注册信息》国家企业信用信息公示系统(http://www.gsxt.gov.cn)是企业信息公示系统,里面有全国的企业信息,年报等;是了解一家企业最为权威的网站。由于通过大数据算批量企业信息,可以得到很多业务上的线索;比如找目标客户,区域企业注册情况,周边行业企业注册情况……这也让很多创业公司选择企业工商注册信息成为大数据的基础;当然我这里不用多说企业数据拿来做什么?这里的重点是要说怎么来通过网络爬虫爬取数据。
在设计爬虫前我们的分析说要抓取的平台的难易程度:
1、国家企业信用信息公示系统(http://www.gsxt.gov.cn)这个是最权威的企业信用信息公示平台,可以通过名称爬取企业信息;但是有复杂的验证码;而且还不只是一种验证码,同时一个IP也有一定的访问限制; 验证码方式:
当然不排除解决着两种验证码的技术图片识别+模拟操作;但问题来了,,我们怎么去得到需要的企业名称呢;发现他们也有搜索热词的地方http://www.gsxt.gov.cn/corp-query-entprise-info-hot-search-list.html?province=100000 (province=100000这里指的是北京)但是能提供的企业名称很少;而且每天的变不大;所以对于上亿的企业工商注册,意义不大;
总结:数据准确性及时性高;爬虫技术要求太高;爬取速度慢;只能爬取少许的企业信息可以选择;
2、天眼查(https://www.tianyancha.com)作为一个非官方的企业信用信息公示平台,天眼查也加入了一些自己的特色数据;分析过后的企业数据;天眼查主要有用户登录;IP限制;和数据加密(现在已经关闭);
企业详情连接:https://www.tianyancha.com/company/23289175 (23289175就是企业id)可以通过循环企业ID来查找企业(1684115751、1398726953……)担任他们中间有一些空缺的ID;
企查查也可以通过区域地质来找企业:https://www.tianyancha.com/map/1398726953 这种可以提高找企业的速度;
总结:有数据扩展性(如社保人数);爬取速度快;平台稳定;主要解决IP现在就可以快速抓取;
3、企查查(https://www.qichacha.com/)企查查和天眼查两个平台差不多;主要也是用户登录(可以记录一周);IP限制;
企业详情https://www.qichacha.com/firm_edef59f5f70f8981ab8e9c9244a86774.html(edef59f5f70f8981ab8e9c9244a86774是企业ID)这里的ID和天眼查的就不一样是一个32位的随机ID,就不能作为规律;
登录过后也可以查找周边企业
总结:有数据扩展性(如社保人数);爬取速度快;;平台稳定;主要解决IP现在就可以快速抓取;
4、其他平台出来大一点的平台还有地方上的,比如:
成都信用(https://www.cdcredit.gov.cn);地方上的企业信用平台;对爬虫的限制比较小; 百度企业信用(https://xin.baidu.com/)
http://www.99114.com/ 、http://company.makepolo.com/、http://qiye.youboy.com/……
选择一个自己能力解决范围的平台,做一个整体抓取,然后在通过其他平台进行抓取补充,还有需要考虑到后期的企业更新; 总注册企业信息:2亿;工商注册企业:8000万;按照抓取进度差不多100天时间能进行完全抓取;
如果对爬虫技术有探讨,可以加我QQ:397713572 微信:yi18_net 专注于企业爬虫技术;