利用requests和BeautifulSoup4写爬虫 | 周五直播·数据科学基础爬虫课

2022-10-12 2,138 0

导语

大数据时代，爬虫是一个重要的基本技能。想要学会爬虫，需要一个完整的技术体系，并动手实践。为了帮助学生真正学会爬虫，集智学园联合西安交通大学应用数学博士、现为南京审计大学讲师的卢燚老师精心设计了 8 小时系列爬虫课程，用简短的代码、精短的课时，讲解 3 种 Python 爬虫的基本方法，给你一个较为完整的爬虫技术体系。

「利用requests和BeautifulSoup4写爬虫」是本系列课程的第二节，也是系列课程最后一次直播课。本节课将先介绍与爬虫相关的HTTP方法、状态码、Robots协议等HTTP知识，再介绍一个Chrome浏览器自带的爬虫必备工具：Chrome开发者工具，该工具是写爬虫代码之前需要花大量时间分析网站的解析工具。最后讲解requests库的使用方法。

课程简介

要写好一个爬虫得掌握两个部分，一是爬虫策略，二是网页解析。上节课卢燚老师讲了爬虫基本功，即如何利用BeautifulSoup4解析DOM来提取一个HTML文件中的信息。把HTML文件抽象成一棵树的结构叫做DOM，再利用DOM解析工具解析DOM对象，最后通过CSS选择器提取其中的内容。这一部分内容非常重要，一定要多加练习，好好体会其中的真义。

本节课我们来补全爬虫的第二块版图。首先介绍爬虫相关的HTTP知识，有HTTP方法、状态码、Robots协议等。有了这些基础知识，我们再去读相关代码的API文档就不会一头雾水了，我们也可以像个专业人士一样使用官方API。其次，会认识一个爬虫必备工具：Chrome开发者工具。该工具无需安装，是Chrome浏览器自带的工具，装有Chrome类浏览器的可以直接使用（比如微软的Edge浏览器）。该工具是我们写爬虫之前需要花大量时间分析网站的必备工具。最后，会讲解requests库的使用方法，如何应用requests库对网站发送请求。requests库就是给人用的urllibx库。有了这个工具，我们可以将HTML文件下载到本地，然后再基于上节课讲到的CSS选择器解析HTML。上完这节课，你将会完整地写出简单的爬虫代码，在爬虫路上迈进你的一小步，一起加油吧！

本节课程大纲

1. HTTP基础：HTTP方法、状态码、Robots协议

2. 网页查看工具：Chrome开发者工具

3. requests库常见用法

4. 示例：编写一个新闻类网站的爬虫

课后作业

尝试爬取一个openreview会议上历史以来的全部PDF文件和附件。

讲师介绍

卢燚，西安交通大学应用数学博士，现为大学讲师，曾在华为工作三年，拥有多年编程实战经验和一线教学经验，熟练掌握Python和NetLogo语言，对函数式编程有着浓厚的兴趣。讲授爬虫课两年，积累了大量的案例。

直播信息

直播时间：

2022年10月14日（周五）晚上20:00-21:00

参与方式：

报名课程，加入腾讯会议交流。

集智学园 B 站免费直播，房间号https://live.bilibili.com/6782735

给数据相关工作者的爬虫课

每周更新，持续报名中

系列课程大纲

本系列课程分为 8 节，每节课程包括 60 分钟的内容分享与 30 分钟的答疑。

课程目的

本系列系统讲述当前流行的三种爬虫思路，三种思路内容互相补充，基本覆盖大多数爬虫使用场景。帮助你：

从零到一，系统建立爬虫技术体系；

由易到难，学会三种数据采集思路；

课堂内外，即学即用快速上手获取数据。

对学员的基础要求

具有一定的python编程基础（使用python3）
懂一点算法和网络知识（可选）

课程适用对象

算法工程师

从事数据相关工作的研究者

有编程基础，对爬虫感兴趣的开发人员

课程特色

线上直播，示例丰富。

只讲基本框架，代码简洁有效

代码可拓展，实用性强

三种方法互相补充，覆盖大多数爬虫场景

课程内容框架

报名加入课程

课程价格 199，早鸟报名仅需 169 元，优惠于2022年10月14日截止。

扫码付费报名课程

第一步：扫码付费

第二步：在课程详情页面，填写“学员信息登记表”

第三步：扫码添加助教微信，入群

本课程可开发票。

点击“阅读原文”，报名课程

利用requests和BeautifulSoup4写爬虫 | 周五直播·数据科学基础爬虫课