第一个知识点:
爬虫:用爬虫主要是实现爬取公司网站上的表格,主要用fiddler进行抓包,根据是判断是post请求还是get请求将表格从网站上爬取下来,储存成excel表格形式,用了request库。
第二个知识点:
python和excel:讲数据爬取下来之后,如何将其存入已经存在excel的sheet呢,这个主要用的包是openpyxl,这个地方有一个需要注意的地方,openpyxl的版本必须是2.4.2,其余版本的就会出现错误。
第三个知识点:
python和sql:有几个数必须是用sql从数据库中提取的,提取出来之后呢,将其插入到已经存在的excel的指定位置,用的sqlalcgemy和openpyxl。
一个注意点:用python从excel中提取数据并插入到另一个sql的时候,是先将其提取为DataFrame格式,然后在插入的,但是这个时候会将index作为单独的一个列插入,我再用openpyxl去删除sheet中的列是,居然提示sheet没有这个功能(实际上最近版本的openpyxl有这个删除列和移动单元格的功能,但是现在我指定opnepyxl的版本是2.4.2,所以不能实现这个功能了,所以DataFrame在插入sheet之前,先将DataFrame的第一列列为index,这样插入的内容就和实际的内容一致)