计算社会科学入门第一步:六周掌握爬虫核心技术

数据就是我们这个时代的石油,谁拥有数据谁就拥有未来。无论对于科学研究,还是数据公司,数据采集成为一项非常重要的技能。
与常见的爬虫教学案例不同,本课程的教学重点是网络数据传输的基本知识,通过本课程的学习可以从原理上理解网络数据采集,进而可以在未来使用任何语言(包括但不限于 Python 和 R)来完成数据的采集工作。
我们的课程目的,就是帮你搞清爬虫原理,快速把握核心知识!帮你搞清爬虫原理,快速把握核心知识!帮你搞清爬虫原理,快速把握核心知识!重要的事情说三遍!
跃跃欲试的你,快来加入吧!
课程讲师
史冬波
上海交通大学国际与公共事务学院
特别副研究员
课程对象
课程对象
-
希望掌握爬虫技能,并且希望理解爬虫原理的任何探索者
-
入门数据挖掘的小白,网络数据采集心法拿走即用
-
计算社会科学等领域的研究者,教你如何快速获取大量网络数据信息
课程亮点
课程亮点
-
夯实爬虫基本功,数据挖掘不走弯路
-
专治半途而废,实操训练,快速上手
-
免费课程,打下数据结构和网络通信基础
-
收费课程,高阶网页数据传输知识,辅以案例学习
免费直播课程
免费直播课程
-
网络数据结构:数据在网络上是如何传输的?
-
客户端与服务器是如何通信的?
直播时间
时间周期:2020年6月8日-6月15日(共两周)
更新频率:每周一 20:00-21:30
直播平台
Bilibili 弹幕网。直播链接:https://live.bilibili.com/6782735(集智学园)
深度收费练习(119元)
-
伪装成浏览器与网页对话?
-
XPath:网页信息查询的 GPS
-
异步网页 AJAX
-
网络数据采集实例
直播时间
时间周期:2020年6月8日-7月13日(共六周)
更新频率:每周一 20:00-21:30
直播平台
-
zoom,房间号在学员群内公布,购课后,可见助教微信。
-
付费学员,六周课程,全程 zoom 直播交流互动
付费优势
-
额外课程深度资料
-
助教全程答疑服务
-
同学一起结伴学习
快来购买吧,一起学习!

课程地址:https://campus.swarma.org/course/1587
或在公众号后台回复“爬虫”,获取课程链接
课程助教 — 有困惑,找他!😁
课程助教 — 有困惑,找他!😁
张庆逸
集智学园后端工程师
课程内容介绍
课程内容介绍
第一讲 网络数据结构:数据在网络上是如何传输的?(免费)
-
网络数据结构的基本知识就如同是破译网络数据的密钥,可以帮助我们从茫茫的文本中,快速定位到有效信息 -
HTML 的语法规则 -
XML、JSON 语法与实例
-
网络通信实际上就是客户端和服务器来回写信。网络通信协议定义了网络通信的标准格式,理解网络协议,就好比是了解写一封信的基本结构和约定俗成的“黑话” -
HTTP 协议的基本框架 -
IP/TCP 协议的基本框架
-
HTTP 的高级属性:身份识别、身份验证与代理 -
FTP、HTTPS
-
Xpath 是一种网页查询语言,就像是 GPS 一样,可以精准定位我们想要的信息 -
节点集与节点关系 -
XPath 函数
-
利用开发者工具探索 AJAX -
利用 Selenium 从 AJAX 增强的网页抓取数据
-
HTTP 身份验证 -
使用 cookie -
数据信息提取







