爬虫实战|爬糗事百科段子

点击「DataCastle数据城堡」可快速关注~  

本人比较喜欢段子,平时也经常上糗百。所以这次作业也想尝试一下爬取糗百的内容。

网站链接:http://www.qiushibaike.com/

爬虫实战|爬糗事百科段子

网站截图

主要想爬取的数据有段子内容、用户、投票数、评论数、热门评论等等。其实没有用什么特别的技巧,也没有什么反爬机制,所以比较简单,用xpath来进行定位获取相应的内容就行。

具体的步骤就不详细说明了,po上代码:

爬虫实战|爬糗事百科段子
爬虫实战|爬糗事百科段子

爬虫实战|爬糗事百科段子

爬虫实战|爬糗事百科段子

爬虫实战|爬糗事百科段子

爬虫实战|爬糗事百科段子

爬取的部分内容如下:

爬虫实战|爬糗事百科段子

内容截图

学习了一段时间,倒是能爬取很多东西了。但是学习这件事情,真的没有终点,也意识到和小O、朱老师这样的大神,还有很大的差距。

不过还是非常高兴在DC学院学习了这门课,也很高兴在群里和大家一起讨论问题、学习经验,确实少走了不少弯路。

关注微信公众号回复关键词“糗事百科”即可获取源码,也欢迎愿意分享的同学通过邮箱huangxia@datacastle.cn向小编砸来你们的爬虫小程序哟~

爬虫实战|爬糗事百科段子