Python爬取网易云热歌榜所有音乐及其热评

2021-11-21 21:15:07

获取特定歌曲热评：

首先，我们打开网易云网页版，击排行榜，然后点击左侧云音乐热歌榜，如图：

关于如何抓取指定的歌曲的热评，参考这篇文章，很详细，对小白很友好：

手把手教你用Python爬取网易云40万+评论

下图是用上文的方法找到热评后，确认下这条确实包含着热评，hotComments就是我们要找的热门评论：

到此为止，我们如何抓取网易云音乐的热门评论已经分析完了，我们再分析一下如何获取云音乐热歌榜中所有歌曲的信息。

获取热榜全部歌曲

同样F12大法。这次选all，因为是找歌单，仔细观察，很容易定位到这个嫌犯：toplist?id=3778678

点进去看下，预览一下该请求返回的结果，哈哈，就你啦！

heads：

request headers
现在看response：

太乱了，格式化一下，然后往下翻：

这样就好找了，框框里面就是包含歌曲信息的代码。

因此，我们只需要将该请求的代码中，将包含信息的代码筛选出来。

我们在这里使用正则表达式进行数据筛选。

通过观察特点，我们可以通过两次正则表达式的筛选，将我们需要的歌曲信息提取出来。

第一次正则表达式如下：

<ul class="f-hide"><li><a href="/song\?id=\d*?">.*</a></li></ul>

第二次正则表达式将需要的歌曲信息提取出来，我们需要歌曲的歌名和id，对应的正则表达式如下：

获取歌名：

<li><a href="/song\?id=\d*?">(.*?)</a></li>

获取歌曲的id：

<li><a href="/song\?id=(\d*?)">.*?</a></li>

完整代码：

 1 #!/usr/bin/env python3

 2 # -*- coding: utf-8 -*-

 3

 4 import re

 5 import urllib.request

 6 import urllib.error

 7 import urllib.parse

 8 import json

 9

10

11 def get_all_hotSong():  # 获取热歌榜所有歌曲名称和id

12     url = 'http://music.163.com/discover/toplist?id=3778678'  # 网易云云音乐热歌榜url

13     header = {  # 请求头部

14         'User-Agent': 'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

15     }

16     request = urllib.request.Request(url=url, headers=header)

17     html = urllib.request.urlopen(request).read().decode('utf8')  # 打开url

18     html = str(html)  # 转换成str

19     pat1 = r'<ul class="f-hide"><li><a href="/song\?id=\d*?">.*</a></li></ul>'  # 进行第一次筛选的正则表达式

20     result = re.compile(pat1).findall(html)  # 用正则表达式进行筛选

21     result = result[0]  # 获取tuple的第一个元素

22

23     pat2 = r'<li><a href="/song\?id=\d*?">(.*?)</a></li>'  # 进行歌名筛选的正则表达式

24     pat3 = r'<li><a href="/song\?id=(\d*?)">.*?</a></li>'  # 进行歌ID筛选的正则表达式

25     hot_song_name = re.compile(pat2).findall(result)  # 获取所有热门歌曲名称

26     hot_song_id = re.compile(pat3).findall(result)  # 获取所有热门歌曲对应的Id

27

28     return hot_song_name, hot_song_id

29

30

31 def get_hotComments(hot_song_name, hot_song_id):

32     url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_' + hot_song_id + '?csrf_token='  # 歌评url

33     header = {  # 请求头部

34         'User-Agent': 'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

35     }

36     # post请求表单数据

37     data = {

38         'params': 'zC7fzWBKxxsm6TZ3PiRjd056g9iGHtbtc8vjTpBXshKIboaPnUyAXKze+KNi9QiEz/IieyRnZfNztp7yvTFyBXOlVQP/JdYNZw2+GRQDg7grOR2ZjroqoOU2z0TNhy+qDHKSV8ZXOnxUF93w3DA51ADDQHB0IngL+v6N8KthdVZeZBe0d3EsUFS8ZJltNRUJ',

39         'encSecKey': '4801507e42c326dfc6b50539395a4fe417594f7cf122cf3d061d1447372ba3aa804541a8ae3b3811c081eb0f2b71827850af59af411a10a1795f7a16a5189d163bc9f67b3d1907f5e6fac652f7ef66e5a1f12d6949be851fcf4f39a0c2379580a040dc53b306d5c807bf313cc0e8f39bf7d35de691c497cda1d436b808549acc'}

40     postdata = urllib.parse.urlencode(data).encode('utf8')  # 进行编码

41     request = urllib.request.Request(url, headers=header, data=postdata)

42     reponse = urllib.request.urlopen(request).read().decode('utf8')

43     json_dict = json.loads(reponse)  # 获取json

44     hot_commit = json_dict['hotComments']  # 获取json中的热门评论

45

46     num = 0

47     fhandle = open('./song_comments', 'a', encoding='utf-8')  # 写入文件

48     fhandle.write(hot_song_name + ':' + '\n')

49

50     for item in hot_commit:

51         num += 1

52         fhandle.write(str(num) + '.' + item['content'] + '\n')

53     fhandle.write('\n==============================================\n\n')

54     fhandle.close()

55

56

57 hot_song_name, hot_song_id = get_all_hotSong()  # 获取热歌榜所有歌曲名称和id

58

59 num = 0

60 while num < len(hot_song_name):  # 保存所有热歌榜中的热评

61     print('正在抓取第%d首歌曲热评...' % (num + 1))

62     get_hotComments(hot_song_name[num], hot_song_id[num])

63     print('第%d首歌曲热评抓取成功' % (num + 1))

64     num += 1

运行：

爬下来的：

对比：

码农公寓

获取特定歌曲热评：

获取热榜全部歌曲

完整代码：

相关文章