python+selenium实现的谷歌爬虫(超详细) python爬取百度图片教程

发表时间：2024-10-10 12:09:06

python+selenium实现的谷歌爬虫(超详细)

python+selenium实现的谷歌爬虫

接到一个需求，需要从谷歌图库中爬取图片。于是按照之前的爬取国内网站的图片的方法，进入谷歌图库的图片页面，打开谷歌开发者工具，选中network面板，然后翻页，以此找到返回图片地址的json数组的请求url，结果硬是找不到。在这里不得不说，国外的网站安全性比国内还是要高，国内的什么百度图库、搜狗图库、一些图片收费网站按照上面的方法轻松爬取。既然此路不通，那就换一种方法，在此选择了使用selenium自动化测试工具来配合python完成爬虫。

1、selenium

Selenium 是一款强大的基于浏览器的开源自动化测试工具，最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起，它提供了一套简单易用的 API，模拟浏览器的各种操作，方便各种 Web 应用的自动化测试。 Selenium 的初衷是打造一款优秀的自动化测试工具，但是慢慢的人们就发现，Selenium 的自动化用来做爬虫正合适。我们知道，传统的爬虫通过直接模拟 HTTP 请求来爬取站点信息，由于这种方式和浏览器访问差异比较明显，很多站点都采取了一些反爬的手段，而 Selenium 是通过模拟浏览器来爬取信息，其行为和用户几乎一样，反爬策略也很难区分出请求到底是来自 Selenium 还是真实用户。而且通过 Selenium 来做爬虫，不用去分析每个请求的具体参数，比起传统的爬虫开发起来更容易。Selenium 爬虫唯一的不足是慢，如果你对爬虫的速度没有要求，那使用 Selenium 是个非常不错的选择。Selenium 提供了多种语言的支持（Java、.NET、Python、Ruby 等）。 selenium安装参照下面地址的博客，网上关于这个很多。 https://blog.csdn.net/sinat_35100573/article/details/80272040

2、爬虫实现思路

selenium就是用来模拟浏览器操作的，在这里我们首先首先打开浏览器进入谷歌首页：https://www.google.com.hk/，然后找到搜索输入框，通过selenium的API得到输入框对象

input=browser.find_elements_by_xpath("//input[@class=‘gLFyf gsfi’]")[0]

接下来在输入框中写入关键字，按下enter键即会搜索

input.send_keys(“路飞”) input.send_keys(Keys.ENTER) #按下enter键

进入到上面这个页面，在点击“图片”这个超

上一篇 势动科技

下一篇流式细胞术分析外周血淋巴细胞亚群在儿科的临床应用共识

专业财税服务推荐

python+selenium实现的谷歌爬虫(超详细) python爬取百度图片教程