外行学 python 爬虫第二篇获取内容

keinYe 完成于 2019 年 05 月 02 日

一个无法获取内容的爬虫不是一个真正的爬虫，爬虫的首要目标是从网络上获取内容.

从网站上获取内容实际上就是一个 HTTP 的通信过程，服务器还是那个服务器，只是客户端从浏览器换成了我们的爬虫程序。爬虫程序实现的就是浏览器的功能，有很多时候还需要模仿浏览器的行为「比如登录、获取 cookie 等等」才能够从服务器获取我们需要的数据。

HTTP 通信过程可以简单的分为两个部分请求和应答。请求有客户端发起、服务器在接收到客户端的请求后，组织应答数据并将数据通过 HTTP 协议发送给客户端，请求和应答组成了一个完整的网络通信过程。

在 HTTP 协议中请求分为GET、PUT、POST、DELETE 等几种，GET向指定的资源发出“显示”请求，以从服务器中获取数据；PUT向指定资源位置上传其最新内容；POST向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）；DELETE请求服务器删除所标识的资源。GET 方法在爬虫程序中是最主要也是最长用的方法。

在 python 中可以通过内置的 urllib 库来获取网站内容，可以通过 Selenium 库来模拟浏览器的行为。urllib 是 python 标准库中专门用于网络请求的库，强烈建议初学者使用 urllib 来实现网络请求，urllib 可以完成当前所遇到任何问题。

使用 urllib 仅仅 2 行代码即可实现网络内容的读取：

response = request.urlopen(url, timeout=10)
html = response.read()

在以上代码中 html 即从网络上获取的 url 的网页内容。

对于 urllib 的使用方法在初识 Python 网络请求库 urllib中已经进行过介绍，这里就不再详细介绍了。

Comments

comments powered by Disqus

Explore more like this

python python 外行爬虫

为 Flask 添加用户登录

Flask 是什么？我想打开这篇文章的你应该不陌生，但是我还引用维基百科上的内容做个简短的介绍。

keinYe 2019/09/09

外行学 python 爬虫第十一篇数据可视化

在外行学 Python 爬虫第九篇读取数据库中的数据中完成了使用 API 从数据库中读取所需要的数据，但是返回的是 JSON 格式，看到的是一串的字符串数据不是很好理解，这篇将介绍如何将数据进行可视化。

keinYe 2019/08/23

外行学 python 爬虫第十篇爬虫框架 Scrapy

前面几个章节利用 python 的基础库实现网络数据的获取、解构以及存储，同时也完成了简单的数据读取操作。在这个过程中使用了其他人完成的功能库来加快我们的爬虫实现过程，对于爬虫也有相应的 python 框架供我们使用「不重复造轮子是程序员的一大特点」，当我们了解爬虫的实现过程以后就可以尝试使用框架来完成自己的爬虫，加快开发速度。

keinYe 2019/08/10

外行学 python 爬虫 第二篇 获取内容

目录