请求库的安装
1.2 请求库的安装
爬虫可以简单分为几步:抓取页面,分析页面,存储数据。
在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些Python库来实现HTTP请求操作。
1.2.1 requests库的安装
requests库属于第三方库,Python自带默认不会有这个库,因此需要我们手动安装。注:如果你使用的是Anaconda环境,那么这个库应该是有的。
下面讲解一下手动安装类似库的方法:
1. pip 安装
打开Anaconda Prompt,输入:
pip install requests
然后它会提示安装成功(因为我是之前就安装好的,所以会出现下面的图片)。
2. wheel安装
wheel是Python的一种安装包,后缀是.whl,在网速较差的情况下可以选择下载wheel文件,再在本地安装。
在这之前需要先安装wheel库,方法同上.安装命令为:
pip install wheel
requests库的wheel文件下载地址为:
源为Pypi: https://pypi.python.org/pypi/requests
比如这个whl文件位置是:E:\selenium-3.141.0-py2.py3-none-any.whl
则打开Anaconda Prompt,输入:
pip install E:\selenium-3.141.0-py2.py3-none-any.whl
3. 源码安装
(注:此种方法本人没有亲自实验,因此无法确保其正确性。)
如果不想用pip安装,或者想获得某一特定版本,可以选择源码安装。
这种方式需要先找到此库的源码地址,然后下载下来再用命令安装。
一般源码都在github上面
requests项目的地址是:
http://github.com/kennethreitz/requests
可以通过Git来下载源码:
git clone git://github.com/kennethreitz/requests.git
或者通过curl来下载:
curl -OL https://github.com/kennethreitz/requests/tarball/master
下载下来之后,进入目录,执行如下命令即可安装:
cd requests
python setup.py install
执行完命令接口完成requests的安装。
测试验证
在pycharm或其他Python IDE中能够成功导入requests库,而没有报错即可
import requests
1.2.2 Selenium的安装
方法同1.2.1,下面给出一些网站链接:
- 官方网站:http://www.seleniumhq.org
- Github: https://github.com/SeleniumHQ/selenium/tree/master/py
- PyPI: https://pypi.python.org/pypi/selenium
- 官方文档:http:///selenium-python.readthedocs.io
- 中文文档:http://selenium-python-zh.readthedocs.io
1.2.3 ChromeDriver的安装
前面安装好的Selenium库,但它是一个自动化测试工具,需要浏览器来配合使用,本节来介绍一下怎么安装ChromeDriver驱动的配置。
首先,下载Chrome浏览器,方法不再赘述。
然后下载安装ChromeDriver。只有安装了ChromeDriver,才能驱动Chrome浏览器完成相应的操作。
下载地址:https://chromedriver.storage.googleapis.com/index.html
注意:Chrome浏览器的版本和ChromeDriver的版本需要兼容。
具体可见参考友情链接:
2019 Selenium Chrome版本与chromedriver兼容版本对照表:
1.2 请求库的安装
本人使用的Chrome浏览器版本是当前最新版本: 77.0.3865.90,
因此我选择的ChromeDriver版本是:77.0.3865.40,亲测没有太大的问题。
测试代码:
from selenium import webdriver
brower = webdriver.Chrome()
运行之后如果弹出一个空白的Chrome浏览器,则证明所有的配置基本没有问题。
1.2.4 GeckoDriver的安装
对于Firefox来说,如果需要完成对Selenium的对接,则需要安装另一个驱动: GeckoDrive。
(由于本人暂时没用到,先空着,方便以后再更。)
1.2.5 PhantomJS的安装
PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎,它支持多种Web标准:DOM操作,CSS选择器,JSON,Canvas以及SVG。
在1.2.4和1.2.5配置了对Chrome和Firefox浏览器的抓取驱动,但是这样有个不方便的地方:
因为程序运行过程中需要一直开着浏览器,在爬取网页的过程中浏览器可能一直动来动去。目前最新的Chrome浏览器已经支持无界面模式,但如果版本较旧的话,就不支持了。这里的另一种选择就是安装一个无界面浏览器PhantomJS,此时抓取过程会在后台运行,不会再有窗口出现。
(由于本人暂时没用到,先空着,方便以后再更。)
今天的文章请求库的安装与使用_安装eclipse无法找到共享库怎么办分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/89041.html