爬虫实战|爬糗事百科段子
点击「DataCastle数据城堡」可快速关注~
本人比较喜欢段子,平时也经常上糗百。所以这次作业也想尝试一下爬取糗百的内容。
网站链接:http://www.qiushibaike.com/
网站截图
主要想爬取的数据有段子内容、用户、投票数、评论数、热门评论等等。其实没有用什么特别的技巧,也没有什么反爬机制,所以比较简单,用xpath来进行定位获取相应的内容就行。
具体的步骤就不详细说明了,po上代码:
爬取的部分内容如下:
内容截图
学习了一段时间,倒是能爬取很多东西了。但是学习这件事情,真的没有终点,也意识到和小O、朱老师这样的大神,还有很大的差距。
不过还是非常高兴在DC学院学习了这门课,也很高兴在群里和大家一起讨论问题、学习经验,确实少走了不少弯路。
关注微信公众号回复关键词“糗事百科”即可获取源码,也欢迎愿意分享的同学通过邮箱huangxia@datacastle.cn向小编砸来你们的爬虫小程序哟~
- 股票抄底秘笈:实战中看K线形态来预测底部
- 大年初一暗黑巨制 | 实战扣篮,马刺排老大,谁来抢老二
- 二战中这场战役3天死了18万士兵,真实战况比电影还惨烈
- 《价值投资原理与实战》:完
- 实战命例:六亲之一,父亲的吉凶怎么看?
- 实战教父:狗年双底牛市起航!
- 把实习当作实战
- 老股民实战多年总结的追涨技巧
- 【股市聊聊吧】杨继农:乖离率的实战应用(图解)
- 老股民压箱底的抄底绝招实战图解