数据就是我们这个时代的石油,谁拥有数据谁就拥有未来。无论对于科学研究,还是数据公司,数据采集成为一项非常重要的技能。

 

与常见的爬虫教学案例不同,本课程的教学重点是网络数据传输的基本知识,通过本课程的学习可以从原理上理解网络数据采集,进而可以在未来使用任何语言(包括但不限于 Python 和 R)来完成数据的采集工作。


我们的课程目的,就是帮你搞清爬虫原理,快速把握核心知识!帮你搞清爬虫原理,快速把握核心知识帮你搞清爬虫原理,快速把握核心知识重要的事情说三遍!


跃跃欲试的你,快来加入吧!

 

 课程讲师

            

史冬波

上海交通大学国际与公共事务学院

特别副研究员

 

课程对象

  • 希望掌握爬虫技能,并且希望理解爬虫原理的任何探索者

  • 入门数据挖掘的小白,网络数据采集心法拿走即用

  • 计算社会科学等领域的研究者,教你如何快速获取大量网络数据信息

 

课程亮点

  • 夯实爬虫基本功,数据挖掘不走弯路

  • 专治半途而废,实操训练,快速上手

  • 免费课程,打下数据结构和网络通信基础

  • 收费课程,高阶网页数据传输知识,辅以案例学习

 

免费直播课程

  • 网络数据结构:数据在网络上是如何传输的?

  • 客户端与服务器是如何通信的?


直播时间

时间周期:2020年6月8日-6月15日(共两周)

更新频率:每周一 20:00-21:30


直播平台

Bilibili 弹幕网。直播链接:https://live.bilibili.com/6782735(集智学园)


深度收费练习(119元)
  • 伪装成浏览器与网页对话?

  • XPath:网页信息查询的 GPS

  • 异步网页 AJAX

  • 网络数据采集实例


直播时间

时间周期:2020年6月8日-7月13日(共六周)

更新频率:每周一 20:00-21:30


直播平台

  • zoom,房间号在学员群内公布,购课后,可见助教微信。

  • 付费学员,六周课程,全程 zoom 直播交流互动


付费优势

  • 额外课程深度资料

  • 助教全程答疑服务

  • 同学一起结伴学习


快来购买吧,一起学习!




课程地址:https://campus.swarma.org/course/1587

或在公众号后台回复“爬虫”,获取课程链接


 

课程助教 — 有困惑,找他!😁

             

张庆逸

集智学园后端工程师

 

课程内容介绍

第一讲 网络数据结构:数据在网络上是如何传输的?(免费)

  • 网络数据结构的基本知识就如同是破译网络数据的密钥,可以帮助我们从茫茫的文本中,快速定位到有效信息
  • HTML 的语法规则
  • XML、JSON 语法与实例
 
第二讲 客户端与服务器是如何通信的(免费)
  • 网络通信实际上就是客户端和服务器来回写信。网络通信协议定义了网络通信的标准格式,理解网络协议,就好比是了解写一封信的基本结构和约定俗成的“黑话”
  • HTTP 协议的基本框架
  • IP/TCP 协议的基本框架
 
第三讲 伪装成浏览器与网页对话
  • HTTP 的高级属性:身份识别、身份验证与代理
  • FTP、HTTPS
 
第四讲 XPath : 网页信息查询的 GPS
  • Xpath 是一种网页查询语言,就像是 GPS 一样,可以精准定位我们想要的信息
  • 节点集与节点关系
  • XPath 函数
 
第五讲 异步网页 AJAX
  • 利用开发者工具探索 AJAX
  • 利用 Selenium 从 AJAX 增强的网页抓取数据
 
第六讲 网络数据采集案例
  • HTTP 身份验证
  • 使用 cookie
  • 数据信息提取







集智学园公众号:swarmAI
集智学园QQ群:426390994
集智学园官网:campus.swarma.org
商务合作&投稿转载|swarma@swarma.org