外行学 python 爬虫 第三篇 内容解析

从网络上获取网页内容以后,需要从这些网页中取出有用的信息,毕竟爬虫的职责就是获取有用的信息,而不仅仅是为了下来一个网页。获取网页中的信息,首先需要指导网页内容的组成格式是什么,没错网页是由 HTML「我们成为超文本标记语言,英语:HyperText Markup Language,简称:HTML」 组成的,其次需要解析网页的内容,从中提取出我们想要的信息。

外行学 python 爬虫 第二篇 获取内容

一个无法获取内容的爬虫不是一个真正的爬虫,爬虫的首要目标是从网络上获取内容。目前我们所看到的网页都是通过超文本传输协议「英语:HyperText Transfer Protocol,缩写:HTTP」在服务器和客户端之间进行数据交换。

外行学 python 爬虫 第一篇 介绍

为什么标题叫做“外行学 Python 爬虫”?是因为本人非 IT 互联网从业人员,唯一能说得上关系的是本人是一个 C 的开发人员,从事的是与嵌入式相关的工作,即与互联网无关,也与数据分析无关。那么为什么要学 Python 爬虫呢?原因一、多一门技能增加自己的职业竞争力。原因二、提升自己的生存「赚钱」能力。