本节书摘来自异步社区《Python极客项目编程 》一书中的第1章,第1.1节,作者 [美] Mahesh Venkitachalam,王海鹏 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。
第一部分 热身运动
“在初学者的头脑中有很多可能性,
在专家的头脑中,可能性很少。”
——铃木俊隆
第1章 解析iTunes播放列表
我们的Python探险始于一个简单的项目,该项目在iTunes播放列表文件中查找重复的乐曲音轨,并绘制各种统计数据,如音轨长度和评分。你可以从查看iTunes播放列表格式开始,然后学习如何用Python提取这些文件的信息。为了绘制这些数据,要用到matplotlib库。
在这个项目中,我们将学习以下主题:
XML和属性列表(p-list)文件;
Python列表和字典;
使用Python的set对象;
使用numpy数组;
直方图和散点图;
用matplotlib库绘制简单的图;
创建和保存数据文件。
1.1 iTunes播放列表文件剖析
iTunes资料库中的信息可以导出为播放列表文件(在iTunes中选择File►Library►Export Playlist)。播放列表文件以可扩展标记语言(XML)写成,这是一种基于文本的语言,旨在分层表示基于文本的信息。它包括一些用户定义的标签所构成的树状集合,标签形如,每个标签可以有一些属性和子标签,其中包含附加的信息。
如果在文本编辑器中打开一个播放列表文件,你会看到类似这样的简化版本:
<?xml version="1.0" encoding="UTF-8"?>
1 <!DOCTYPE plist PUBLIC "-//Apple Computer//DTD PLIST 1.0//EN" "http://www
apple.com/DTDs/PropertyList-1.0.dtd">
2 <plist version="1.0">
3 <dict>
4<key>Major Version</key><integer>1</integer>
<key>Minor Version</key><integer>1</integer>
--snip--
5 <key>Tracks</key>
<dict>
<key>2438</key>
<dict>
<key>Track ID</key><integer>2438</integer>
<key>Name</key><string>Yesterday</string>
<key>Artist</key><string>The Beatles</string>
<key>Composer</key><string>Lennon [John], McCartney [Paul]</string>
<key>Album</key><string>Help!</string>
</dict>
--snip--
</dict>
6 <key>Playlists</key>
<array>
<dict>
<key>Name</key><string>Now</string>
<key>Playlist ID</key><integer>21348</integer>
--snip--
<array>
<dict>
<key>Track ID</key><integer>6382</integer>
</dict>
--snip--
</array>
</dict>
</array>
</dict>
</plist>
属性列表(P-list)文件将对象表示为字典, 和 标签与这种方式有关。字典是把键和值关联起来的数据结构,让查找值变得容易。属性列表文件使用字典的字典,其中和键关联的值往往自身又是另一个词典(甚至一个字典列表)。
标签确定文件为XML文件。在这个开始标签之后,文档类型定义(DTD)定义了XML文档的结构。如你所见,苹果在该标签中的统一资源定位符(URL)中定义了这种结构1。
在2行,文件声明了顶层标签,其唯一子元素是字典3 。该字典包含了各种键,在4行,包括Major Version、Minor Version,等等,但我们的兴趣在5行的Tracks键。注意,该键对应的值也是一个字典,它将整数的音轨ID映射到另一个字典,其中包含Name、Artist等元素。音乐收藏中的每个音轨都有唯一的音轨ID键。
播放列表顺序在6行由Playlists定义,它是顶层字典的一个子节点。