北京人工智能技术培训中心-北京人工智能培训-教育联展网

北京优就业IT培训

零基础适学、实战教学、推荐就业
咨询详情

课程内容

课程介绍

本课程主要针对爬虫零基础的同学（至少有一定编程基础，能基本看懂代码逻辑，好有Python基础，有其他语言基础的同学可以先了解一下Python特点和基本的语法结构，有一定熟悉度之后学习起来才会非常轻松，完全没编程基础的同学可以先学习一下Python基础语法，Python是非常容易入手的语言，可以在极短的时间就能掌握基本语法）。

课程内容一

1.selenium实战

selenium模拟人工操作浏览器，就像真人操作一样，利用浏览器内核操作可以避开绝大部分的反爬措施，因此有的人称它为爬虫的终极武器。

案例：模拟QQ邮箱自动登录

2.协程-定时-数据存储

在实际的爬虫应用中，我们除了爬取数据之外，还要考虑爬取数据的效率，在指定时间爬取、周期性爬取数据，同时还要考虑将数据如何结构化存储，存储在什么位置的问题，本章就是来分析如何解决这些问题。

案例：爬取薄荷网食物热量信息

课程内容二

1.Scrapy框架

框架就是一个完整的结构，就像一辆车，前面章节类似于一个一个零件拼接组成一辆爬虫的车，而爬虫框架本身就是一辆爬虫车，只需要加上油和一些关键的零件就可以开动，scrapy是python爬虫的框架，是专业爬虫工程师无法绕开的。

案例：爬取豆瓣读书数据

2.反爬和反反爬

爬虫过程中会发现一些网站会限制爬虫进行数据爬取，这是网站开发人员基于服务器压力或者数据安全等原因而做的限制，而爬虫工程师怎么会甘心自己看上的数据而不可得呢，这是双方技术人员就会进行博弈，从心理上，技术上，物理成本和时间成本上考虑，因此有反爬就会有反反爬。本章就是分析常见反爬措施和反反爬技巧和思路，拓展爬虫之路。

案例：爬取BOSS直聘数据