Python爬虫44万条数据揭秘:如何成为网易音乐评论区的网红段子手
发布时间:2019-10-22 13:24:31 所属栏目:教程 来源:嗨学python
导读:【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 获取数据 其实逻辑并不复杂: 爬取歌单列表里的所有歌单url。 进入每篇歌单爬取所有歌曲url,去重。 进入每首歌曲首页爬取热评,汇总。 歌单列表是这样的: 翻页并观察它的url变化,注意
副标题[/!--empirenews.page--]
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
获取数据 其实逻辑并不复杂:
歌单列表是这样的: ![]() 翻页并观察它的url变化,注意下方动图,每次翻页末尾变化35。 ![]() 采用requests+pyquery来爬取
这样我们就可以获得38页每页35篇歌单,共1300+篇歌单。 下面我们需要进入每篇歌单爬取所有歌曲url,并且要注意最后“去重”,不同歌单可能包含同一首歌曲。 点开一篇歌单,注意红色圈出的id。 ![]() 观察一下,我们要在每篇歌单下方获取的信息也就是红框圈出的这些,利用刚刚爬取到的歌单id和网易云音乐的api可以构造出: ![]() 不方便看的话我们解析一下json。 ![]()
这样我们就获取了所有歌单下的歌曲,记得去重。
剩下就是获取每首歌曲的热评了,与前面获取歌曲类似,也是根据api构造,很容易就找到了。 ![]()
汇总后就获得了44万条音乐热评数据。 ![]() 数据分析 (编辑:青岛站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐
热点阅读