带你读《多媒体技术教程（原书第2版）》之一：多媒体导论

2021-10-11 16:15:55

计算机科学丛书
点击查看第二章
 点击查看第三章
多媒体技术教程（原书第2版）
Fundamentals of Multimedia,Second Edition

李泽年（Ze-Nian Li）
［加］马克·S. 德鲁（Mark S.Drew）
刘江川（Jiangchuan Liu）　著
于俊清　胡海苗　韦世奎　等译
机械工业出版社
China Machine Press

第1章

多媒体导论

1.1　什么是多媒体

人们在使用“多媒体”这个术语时，往往对这个术语有不尽相同甚至截然相反的理解。娱乐产品的销售商将多媒体理解为具有上百个数字频道的交互式有线电视，或者是通过高速因特网提供的类似有线电视的服务。而硬件销售商则希望我们将多媒体理解为这样一台PC：具有音效功能，也许还有能理解附加多媒体指令的高性能微处理器。
计算机科学或工程专业的学生则会从面向应用的角度理解多媒体：多媒体是由使用多模态技术（包括文本、图像、图形、动画、视频和音频等，以及交互活动）的应用程序构成的。它与早期只显示文本的计算机、印刷或手写等传统形式的媒体有很大的差别。
在文化领域非常流行的“融合”观点，在科学界同样广为接受。这一观点反映在多媒体领域，则是电脑、智能手机、游戏设备、数字电视和多媒体检索等多种技术的融合，也许在不久的将来，这种融合就可以进一步扩展为功能全面的多媒体产品。硬件技术的提高将不断推进这类技术的发展，而现有的成果已令人激动——在交互活动这个主题下，多媒体已成为计算机科学中最令人感兴趣的一部分。很多过去单独研究的内容，在多媒体这个新领域找到了共同点，进而促进了这种融合。图像、可视化、HCI、计算机视觉、数据压缩、图论、网络和数据库系统都3将对目前多媒体的发展产生重大的影响。

1.1.1　多媒体的组成部分

多媒体中的文本、音频、图像、图形、动画、视频和交互活动等多模态技术在以下领域中得到广泛应用：
● 基于地理信息的实时增强现实、大型多人在线视频游戏和具有GPS感知功能的便携式游戏设备（如智能手机、笔记本电脑、平板电脑）。比如，在游戏中玩家加强与“传送门”的链接，然后攻击敌方。敌方玩家所用设备具有GPS功能，为了能跟对方进行交互，需要玩家自身移动到传送门的位置（传送门会被一些真实物体遮挡，比如公共艺术品、有趣的建筑或者公园）。
● 互动电视，观众可以通过编辑手机短信对故事的发展方向进行投票，并实时影响故事的发展。
● 具有建议下一个最佳镜头类型功能的摄像机，以更好地遵循故事板的开发技术指南。
● 一个基于Web的视频编辑器，使得任何人都可以在云端通过编辑、注解和合成专业的视频来生成新的视频。
● 合作教育环境，通过来回传递控制，可以让小学生们通过两个鼠标同时分享一个教育游戏。
● 在大规模视频、图片数据集内，利用目标的语义信息对数据集进行检索。
● 将人工制作的视频和自然视频合成为混合场景，将计算机图形和视频对象放到同一个场景中，以考虑对象的物理性质和光照（比如阴影等）。
● 视频会议参与者的视觉线索，比如参与者的凝视方向和注意力。
● 可编辑的多媒体组件，即允许用户自行决定哪些组件、视频或图形是可见的，并允许用户对组件进行移动或删除，并使组件具有分布式的结构。
● 创建“逆好莱坞”式的应用程序，用以重现视频产生的过程，并使用故事板来删除和简化视频的内容。

从计算机专业人员的角度来看，多媒体技术之所以有如此大的吸引力，是因为很多传统计算机科学领域中的研究内容都与它有某种联系。在当今这个数字化的时代，多媒体内容被记录、播放、演示或是被诸多的数字信息处理设备存取，这些设备从智能手机、平板电脑、笔记本电脑、个人电脑、智能电视、游戏机，到服务器、数据中心，也包含了一些分散的多媒体，比如磁带、硬盘、磁盘，或者一些目前比较流行的有线、无线网络。这些促进了各种各样的研究课题的产生：
● 多媒体处理和编码。其中包括音频/图像/视频处理、压缩算法、多媒体内容分析、基于内容的多媒体检索、多媒体安全等。
● 多媒体系统支持和网络。人们将这类问题理解为网络协议、Internet和无线网络、操作系统、4服务器和客户机、数据库。
● 多媒体工具、端系统和应用。其中包括超媒体系统、用户界面、编著系统、多模态交互和集成。这些应用具备“无所不在性”——可以随时随地上网的设备、多媒体教育（包括计算机支持的学习和设计）以及虚拟环境中的应用程序。

多媒体领域的研究同样影响着计算机科学的其他分支。例如，数据挖掘是目前一个重要的研究领域，而包含多媒体数据对象的大型数据库正是该研究领域的研究课题；远程医疗应用程序（例如“远程病人诊断咨询”系统）是对现有的网络架构提出严峻考验的多媒体应用程序。同时，多媒体技术还是一个高度跨学科的研究领域，包括电子工程、物理学和心理学；音频/视频信号处理是电子工程的基本研究课题；图像和视频中的颜色在物理学中有着悠久的研究历史和坚实的理论基础；更重要的是，所有的多媒体数据都将被人类所接收，这就与医学和心理学的研究相关。

1.2　多媒体：历史和现状

为了将多媒体放置在一个正确的上下文环境中，本节简要回顾多媒体的历史，其中最近比较关注的是多媒体和超媒体之间的联系。我们也会呈现多媒体在新世纪随着新一代计算和通信平台的发展而产生的迅速演变和革新。

1.2.1　多媒体的早期历史

使用多媒体作为交流手段的想法可能源于报纸，报纸大量使用文本、图形和图片，是最早的大信息量交流媒介。在发明可以拍摄静态图像的照相机之前，这些图形、图片都是人工绘制而成的。
1826年，Joseph Nicéphore Niépce使用一个可滑动的木盒子照相机拍摄到了第一张自然图像[1，2]。这个图像是在涂上沥青的白蜡上曝光8小时后生成的。之后，Alphonse Giroux创造了第一台双盒设计的商用照相机。这台照相机有一个装有取景镜头的外盒和一个带平面玻璃板的内盒，它可以聚焦屏幕和图像感光底片。滑动内盒可以对不同距离的物体聚焦。同样用银面的铜质湿版进行曝光的类似相机出现在1839年的商业介绍当中。19世纪70年代，湿版摄影被更加便捷的干版摄影所取代。图1.1（图片来自于作者收藏）展现了19世纪的干版照相机，利用皮腔进行对焦。19世纪末，产生了使用胶卷的照相机，并很快成为主流，直到被数码照相机取代。

Thomas AlvaEdison于1877年发明的留声机是第一个能够记录并再现声音的设备。一开始留声机将声音记录在锡箔片留声机圆筒上[3]。图1.2是Edison发明的留声机的模型（EdisonGEM，1905年；图片来自于作者收藏）。

后来Alexander Graham Bell对留声机进行了很多显著的改进，包括使用涂有蜡层的纸质圆筒，在记录声音的过程中唱针以“Z字形”从一侧向另一侧移动。Emile Berliner将留声机的圆筒进一步改进为黑胶唱片。黑胶唱片的两面都有从边沿向中心延伸的螺旋槽，这使得用拾音器和唱针播放起来更方便。这些组成部分在20世纪又渐渐得到改善，最终留声机播放出来的声音已经很接近原始声音了。在20世纪很长一段时间内，留声机都是记录音频的主流形式。从20世纪80年代开始，由于卡式录音带的出现，留声机的使用骤然减少。之后又出现了CD和其他一些记录形式[4]。图1.3展示了音频存储介质的演变，从Edison的圆筒式记录开始，到平面唱片，再到磁带（双卷盘式磁带和盒式磁带），还有现代数字CD。
动画电影的构想形成于19世纪30年代，基于人眼对运动的快速感知。1887年，Edison发明了电影摄像机[5]。无声电影出现于1910年到1927年；1927年，无声电影时代随着电影《爵士歌王》的上映而结束。
1895年，Guglielmo Marconi在意大利博洛尼亚进行了首次无线电信号通信。几年之后（1901年），他检测到了横跨大西洋的无线电信号[6]。无线电广播最初是为了电报而发明的，现在却成为主要的音频传播媒介。1909年，Marconi获得了诺贝尔物理学奖

电视是20世纪新的传播媒介[7]。1884年，德国一位23岁的大学生Paul Gottlieb Nipkow申请了第一个机电电视系统专利。这种电视使用一个旋转盘，其中有一系列向中心旋转的孔。这些孔以相等的角度间隔隔开，在单次旋转中，旋转盘允许光通过每个孔并到达产生电脉冲的感光硒传感器。由于图像集中在转盘上，每个孔都捕捉到了整个图像的水平“切面”。Nipkow的设计并不实用，直到1907年扩音器技术有了新的进展，尤其是阴极射线管（CRT）的产生之后，才具有实用性。20世纪20年代后期电视开始商业化，基于CRT的电视以视频作为通用媒介，从此改变了大众传播的方式。
上文中所有提到的媒介都是采用模拟形式，信号的时变特征（可变）是输入的连续表示，即对输入音频、图像或视频信号的模拟。而在计算机和数字媒体（即，使用二进制格式表示的媒体数据表现）之间建立联系的想法，事实上是不久之前才出现的：

● 1967年，Nicholas Negroponte在MIT组建了Architecture Machine研究组。
● 1969年，布朗大学的Nelson和van Dam实现了名为FRESS的早期超文本编辑器[8]。今天，布朗大学IRIS（Institute for Research in Information and Scholarship）研究院的Intermedia项目正是由这个系统发展而成的。
● 1976年，MIT的Architecture Machine研究组提出了名为“多类媒体”的项目，这导致1978年第一张超媒体视频磁盘——Aspen Movie Map的诞生。
● 1982年，飞利浦和索尼公司将CD制作商业化，使得CD很快取代了模拟磁带，成为流行的数字音频数据媒介标准。
● 1985年，Negroponte和Wiesner共同创建了MIT媒体实验室，该实验室成为在数字视频和多媒体领域具有主导地位的研究机构。
● 1990年，Kristina Hooper Woolsey开始领导Apple的多媒体实验室，该实验室拥有100多位员工，并以教育方面的应用为主要研究目标。
● 1991年，MPEG-1成为数字视频的国际标准，之后在此基础上开发了一系列更新的标准，如MPEG-2、MPEG-4等。
● 1991年，PDA的诞生开启了计算机应用的新时代，对多媒体而言更是如此。随着1996年无键盘PDA的市场化，这一发展趋势得到了进一步延续。
● 1992年，JPEG成为数字图像压缩的国际标准，至今仍被广泛使用。它的进一步发展导致了JPEG 2000标准的诞生。
● 1992年，产生第一个网络上的MBone音频多播。
● 1995年，Java语言诞生，Java语言可以用来开发与平台无关的应用程序。
● 1996年，DVD技术的产生使得一张磁盘可以收录一整部高清电影。人们预言DVD格式将改变整个音乐、游戏和计算机行业。
● 1998年，具有32MB闪存的手持MP3设备成为市场上深受消费者青睐的产品。

1.2.2　超媒体、万维网和Internet

早期的研究为各种媒体的获取、表示、压缩和存储奠定了坚实的基础。然而多媒体不仅仅是简单地把不同的媒体放在一起，而是注重通过对不同媒体的整合使得各媒体之间、媒体与人之间都形成丰富的交互。
1945年，作为MIT战后考虑事宜的一部分，针对如何安置战时雇用的科学家这一问题，Vannevar Bush写了一篇具有里程碑意义的文章[9]，描述了一个名为“Memex”的超媒体系统。Memex旨在成为一个普遍适用并且个性化的内存设备，它甚至包含了关联链接的概念——这就是万维网（World Wide Web，WWW）的前身。二战以后，六千名在战争中努力工作的科学家突然发现自己有时间考虑其他问题，Memex就是实现研究*后的成果。
20世纪60年代，Ted Nelson开始Xanadu项目，并且创造了“超文本”这个术语。Xanadu是第一次尝试超文本的系统——Nelson把它称为“富含文学记忆的神奇之所”。
我们通常把一本书看作线性媒体，需要从头到尾顺序阅读。与之相反，超文本系统是非线性读取的，可以利用指向文档中其他部分或是其他文档的链接来进行。图1.4说明了这种关系。

DouglasEngelbart深受Vannevar Bush的《诚如所思》（As We May Think）影响，于1968年提出了另一个早期的超文本在线系统（On-Line System，NLS）。Engelbart的研究团队在斯坦福研究院以“增强，而非自动化”(augmentation,not automation)为宗旨，希望通过计算机技术增强人类的能力。NLS包括诸如发展创意概要编辑器、超链接、电话会议、文字处理和email等一些重要观点，同时利用了鼠标定位设备、视窗软件和帮助系统[10]。
Ted Nelson再一次介绍了超媒体，不仅仅包含文本。它包含了各种各样的媒体，比如图形、图像和一些特殊的连续型媒体——声音和视频，然后再把它们关联起来。万维网(WWW或Web)就是超媒体应用的最好也是规模最大的例子。
令人惊讶的是，这种最主要的网络多媒体应用程序可以追根溯源到核物理学！1990年，Tim Berners-Lee向欧洲核研究中心(European Center for Nuclear Research,CERN)提出将万维网作为他们组织和分享其工作和实验结果的一种方式。CERN批准之后，他开始在一个NeXTStep工作站上开发超文本服务器、浏览器和编辑器。同样基于这个目的，他的团队发明了超文本标记语言(HTML)和超文本传输协议(HTTP)。
1. HTML
人们认识到：文档不仅要是人类可读的格式，并且不同文档的结构和元素应该是一致的。Charles Goldfarb、Edward Mosher和RaymondLorie为IBM开发了通用标记语言(Generalized Markup Language, GML)。1986年，ISO发布了标准通用标记语言(Standard Generalized Markup Language,SGML)的最后一个版本。这个版本大部分是基于早期的GML创建的。
HTML是在Web上发布超媒体信息的一种语言[11]。它的定义使用了SGML规范，并派生出了一组用来描述通用文档结构和格式的元素。由于HTML使用ASCII码，因此可移植到任何（甚至是非二进制兼容的）计算机硬件上，这一特性使得全球信息交换成为可能。撰写本书时，10HTML的版本为4.01，当时，新版HTML5仍在开发中。
HTML使用标记来描述文档元素。标记使用类似于的格式来定义文档元素的起始点，用类似于的格式来定义元素的结束点。某些元素只有内联参数，所以不需要结束标记。HTML将文档分为HEAD和BODY两个部分，形式如下：

HEAD部分描述文档的定义，这个部分将在文档显示前被解析。这个部分包括页面标题、资源链接以及作者定义的元信息。BODY部分描述文档的结构和内容。常用的结构元素包括段落、表、表单、链接、链表和按钮等。
下面是一个HTML页面的简单例子：

HTML还有其他更为复杂的结构而且可以和其他标准混合使用。HTML规范经过不断发展，现在已经支持和脚本语言集成，可以在客户端对元素和属性进行动态操纵（动态HTML），以及可以使用级联样式表（Cascading Style Sheets，CSS）这种标记语言来显示参数并进行模块化定制。当然HTML具有严格的、非描述性的结构元素，也很难实现模块化。
2. XML
对于Web的标记语言而言，数据、结构和视图的模块化特性是很有必要的。我们希望用户或应用能够自己定义文档中的标记（结构）以及它们之间的关系，并在XML文件中使用这些标记来定义数据，最后在另一个文档中定义如何显示这些标记。
假设你希望根据用户的查询请求从数据库中检索股票信息。使用XML语言，你需要事先为股票数据创建全局文档类型定义（DTD）。然后服务器的脚本程序就可以遵循DTD定义的规则，利用数据库中的数据来生成满足查询条件的XML文档。最后，根据显示设备的不同，用户将会收到XML样式表，以便在不同显示设备（27英寸的LED显示屏或手机屏幕）上都能得到最佳的视觉效果。
最初的XML是1998年2月由W3C通过的1.0版本。到2008年为止已进行了十五次修改。最初的版本仍备受推崇。第二种版本的XML 1.1于2004年产生，2006年发布了第二版。XML的语法和HTML很相似，但XML更为严格。所有的标记都必须小写，如果一个标记只有内联数据，那么它也必须包含结束符，例如。XML还使用名称空间，以便区分不同DTD中具有相同名字的标记。我们也可以通过URI来导入DTD。下面是一个XHTML文档的定义，我们可以看一下XML的文档结构：

所有的XML文档都以<?xml version="ver"?>开头。..>是用来导入DTD的特殊标记。由于它实际上是DTD的定义，因此并不遵循XML规则。xmlns为文档元素定义了唯一的名称空间。在上面的例子中，名称空间是XHTML规范的说明网页。
以下是其他一些和XML相关的规范：
●XML协议。用于在进程间交换XML信息。它可用来替代HTTP协议，并将进一步扩展以支持网络上进程间的通信。
●XML Schema。一种结构化且功能更加强大的语言，用来定义XML数据类型（标记）。和DTD不同，XML Schema用XML标记来进行类型定义。
●XSL。XSL相当于XML的CSS。但XSL更为复杂，它由三部分构成：XSL转换（XSLT)、XML路径语言（XPath)以及XSL格式对象。
由于Web服务器提供的信息量、发布此类信息的能力的提升以及Wed浏览器导航的便利性，万维网迅速普及，尤其是在1993年Marc Andreessen推出了Mosaic浏览器（后成为Netscape）之后。
目前，Web技术由万维网联盟（World Wide Web Consortium,W3C）和互联网工程任务组（Internet Engineering Task Force,IETF）一起维护和开发，以规范技术。W3C为万维网制定了以下三个目标：对网络资源的普遍访问（任何地方的任何人）、对可用信息的有效浏览以及对已发布内容的可靠使用。
值得一提的是，Internet是万维网和通过万维网分享的多媒体内容的基础媒介。Internet开始于1969年只有两个节点的ARPANET(Advanced Research Projects Agency Network)，逐渐发展成为全球主流的网络，通过标准的互联网协议(TCP/IP)将无数的计算机和数十亿的用户互联起来。它是随着数字多媒体一起演变的。一方面，Internet承载了大部分的多媒体内容。它很大程度上代替光盘成为电影行业存储和发行产品的媒体。目前，电视广播行业也正在以更快的速度重塑。另一方面，Internet最初并不是为多媒体数据而设计的，并且不太适于多媒体传输。多媒体数据目前占据了Internet 90%的带宽，是加强现有Internet和发展下一代Internet的关键推动力，正如我们将在第15～16章中看到的那样。

1.2.3　新世纪的多媒体

新世纪以来，我们目睹了新一代面向多媒体处理和共享的社交、移动和云计算的快速发展。今天，互联网本身的作用已经从原来的用途演变为通信工具，可以更轻松、更快速地共享无限供应的信息，多媒体内容也越来越丰富。高分辨率视频甚至3D/多视点视频可以由个人计算设备轻松捕捉和浏览，并且能够很方便地使用远程云资源进行存储和处理。更重要的是，用户积极参与到社交生态系统中，成为其中的一部分，而不是被动地接受媒体内容。3G/4G无线网络和智能移动设备渗透到人们的生活中，进一步推动了这种变化。它们具有高度直观的界面和非常丰富的多媒体功能，已经与在线社交网络无缝集成，用于即时媒体内容生成和共享。
下面将列出新世纪以来多媒体发展的重要里程碑。我们都生活在互联网时代，都见证了这些翻天覆地的变化，13相信大部分读者对这些事件都很熟悉。许多读者，尤其是年轻一代，应该比作者更熟悉YouTube、Facebook和Twitter这些多媒体服务。
●2000年，万维网规模估计超过10亿页。索尼公司于2000年10月首次公布蓝光光盘原型。2003年4月在日本发布了第一款原型机。
●2001年，第一个点对点共享（大部分为MP3音乐）系统——Napster，在法院的责令下关闭服务。但接下来的几年又有许多新的点对点文件共享系统推出，比如Gnutella、eMule和BitTorrent。Coolstreaming是第一个部署在互联网上的大规模点对点流媒体系统，在2004年吸引了超过一百万用户。之后的几年又涌现出了一些商业点对点TV系统，比如PPLive、PPStream和UUSee，尤其是在东亚。日本NTT DoCoMo在10月1日推出首款商用3G无线网络。然后3G开始在全球部署，展示出了宽带无线移动数据传输多媒体数据的潜力。
●2003年，Skype在互联网上提供免费的点对点语音通信。
●2004年，Web 2.0被公认为是软件开发人员和最终用户使用Web的新方式（不是新的Web技术规范）。其理念是希望能够促进用户协作和交互，以便在“虚拟社区”中生成内容，而不是简单地、被动地查看内容，比如社交网络、博客、*等。Mark Zuckerberg创建的Facebook是目前最流行的在线社交网络。由Ludicorp公司创建的Flickr是一个流行的照片代管和共享网站，该公司坐落于温哥华，由Stewart Butterfield和Caterina Fake创立。
●2005年，YouTube被创立，它是一个简单的视频分享门户网站，并于2006年年底被Google收购。Google之后又推出了在线地图服务，包括卫星影像、实时路况以及街景视频等服务。
●2006年，Twitter被推出，并迅速在全球获得知名度，到2012年有5亿注册用户，每天发布3.4亿推文。2012年，Twitter推出了Vine手机应用程序，使用户能够创建和发布长达6秒的短视频片段。亚马逊推出了云计算平台AWS(Amazon’s Web Services)，这些服务中最为众所周知的是Amazon EC2和Amazon S3。Nintendo推出了Wii家庭视频游戏机，其遥控器可以检测三维运动。
●2007年，Apple推出了第一代iPhone，采用iOS操作系统。其触摸屏提供非常直观的操作，相关的App Store提供了大量移动应用程序。开放手机联盟（Open Handset Alliance）是一个集硬件、软件和电信于一身，致力于推动移动设备开放标准的联盟，随着其成立，Google推出了Android手机操作系统。第一款Android手机于2008年10月销售。之后Google Play和Android主要应用商店也很快推出。之后的几年，使用iOS、Android和Windows系统的大触摸屏平板电脑也相继问世。
●2009年，LTE(Long Term Evolution，长期演进)网络首次在挪威奥斯陆和瑞典斯德哥尔摩提供服务，为发展4G无线网络迈出了重要一步。James Cameron的电影《阿凡达》激发了人们对3D视频的兴趣。
●2010年，曾是DVD租赁服务提供商的Netflix将其基础架构迁移到亚马逊AWS云计算平台，并成为主要的在线流媒体视频提供商。电影制片厂制作的数字影片的主要副本都存储在Amazon S3上。根据影片的视频分辨率和音频质量，云端的机器将每部影片编码为超过50种不同的版本。总的来说，Netflix总共有超过1PB的数据存储在亚马逊的云端。微软推出应用于其游戏机Xbox 360的Kinect感应器，这是一款具有全身3D运动捕捉、面部识别和语音识别功能的设备。
●2012年，HTML5将先前于1997年被标准化的HTML4归入其中。HTML5是W3C的“候选推荐”。它旨在为最新的多媒体格式提供支持，同时保持当前网络浏览器和设备的一致性，以及维持其在低功耗设备（如智能手机和平板电脑）上运行的能力。
●2013年，索尼发布了PlayStation 4，它是一款视频游戏机，集成了Gaikai，同时是基于云的游戏服务，提供流式视频游戏内容。4K分辨率电视出现在了消费市场上。

1.3　多媒体软件工具概述

为了了解多媒体软件工具目前在多媒体任务处理中的现状，我们现在简要介绍一些软件类别和产品。
了解这些软件仅仅是一个开始，完成一个功能全面的多媒体项目不但需要非常出色的编程技巧，还要使用已有工具发挥网络和计算机的强大功能。
在课程中，我们使用文字进行教学，但鼓励学生尝试用这些工具去制作成熟且具有创造性的多媒体作品。然而，这部分内容的目的不是教会学生如何使用这些工具，而是理解这些工具背后的基本设计原则。通过清楚了解多媒体的关键数据结构、算法和协议，学生可以更好地使用这些工具，充分挖掘它们的潜能，甚至改进工具本身或开发新工具。
下面是我们将要介绍的几类软件：
●编曲和谱曲。
●数字音频。
●图形和图像编辑。
●视频编辑。
●动画。
●多媒体编著。

1.3.1　编曲和谱曲

●Cakewalk Pro Audio是一个非常简单的为音序打谱的软件。术语音序器（sequencer）来源于MIDI音乐语言（MIDI中的事件，详见6.2节）中存储音符序列的老式设备。
●Finale和Sibelius是两个作曲家级别的谱曲系统。这些程序是为追求卓越而设置的，但其学习曲线走势相当陡峭。

1.3.2　数字音频

数字音频工具主要用来访问和编辑构成音频的真实采样的声音。
●Adobe Audition(原名为Cool Edit)是一款非常流行的功能强大的数字音频工具集，具有可以和专业音频工作室相媲美的处理能力（对于PC用户而言），包括多声道的生成、声音文件编辑和数字信号处理。
●Sound Forge也是一款基于PC的高级程序，可以用来编辑WAV文件。它可以通过声卡从光驱、磁带或是麦克风采集声音，以进一步混音和编辑。它还支持添加特殊音效。
●Pro Tools是一款运行在Macintosh或Windows平台上的高端集成音频产品和编辑环境。它提供了便捷的MIDI制作和操作功能，以及强大的音频混合、录制和编辑功能。完整的效果取决于购买的接收器。

1.3.3　图形和图像编辑

●Adobe Illustrator是一款功能强大的用于制作和编辑向量图的工具，可以方便地导出向量图以便在Web上使用。
●Adobe Photoshop是图形图像处理和制作的标准工具。图形、图像和文本可以分别在不同的图层上进行独立的操作，非常灵活。此外，它包含一套滤镜，可以实现非常复杂的光学效果。
●Adobe Fireworks是专门用来制作网页图形的软件。它包括位图编辑器、向量图编辑器以及用于制作按钮和翻转器的JavaScript生成器。
●Adobe Freehand是一个文本和网页图形编辑工具，它支持多种位图格式，如GIF、PNG和JPEG。这些都是基于像素的格式，这种格式指定了每个像素。它同样支持基于向量的格式，这种格式只需指定线段的两个端点，而不必指定每个像素，例如SWF（Adobe Flash）。它还支持读入Photoshop格式文件。

1.3.4　视频编辑

●Adobe Premiere是一款简单直观的非线性视频编辑工具——可以将视频片段按任意顺序放置。视频和音频排列在不同的轨道上，就好像乐谱那样。它提供了大量的音频和视频轨道、叠加和虚拟片段。对于片段，它包含一个内置转换、过滤和运动的库，以便更高效地开发多媒体产品。
●CyberLink PowerDirector由CyberLink公司出产，到目前为止是最流行的非线性视频编辑软件。它提供了丰富的音频、视频特征选择和特殊的效果，并且易于使用。它支持目前视频的所有格式，包括AVCHD 2.0、4K Ultra HD和3D视频。它支持64位的视频处理器、显卡加速和多CPU。它的处理和预览比Premiere快得多。然而，它并不像Premiere那样是“可编程的”。
●Adobe After Effects是一款功能强大的视频编辑工具，支持用户给已有的视频文件添加特殊效果，或对已有视频文件进行修改，如光照、阴影和运动模糊等。和Photoshop类似，它也是用图层来进行对象的独立编辑。
●Final Cut Pro是Apple为Macintosh平台提供的视频编辑工具。它可以从大量数据源中采集视频和音频数据。它提供了一套非常完整的环境，可以实现从视频的采集到编辑、颜色修正，以及最终将结果输出到视频文件中。

1.3.5　动画

1.多媒体API
Java3D是Java用来构建和渲染3D图像的API，和Java Media Framework处理媒体文件类似。它提供了一套基本的对象基元（立方体、曲线等）来帮助开发人员进行场景的构建。由于它是建立在OpenGL或DirectX（用户可以从中选择）之上的抽象层，因此可以支持图形加速。
DirectX是一个支持视频、图像、音频和3D动画的Windows API，是目前Windows多媒体应用程序（如计算机游戏）开发中应用最广泛的API。
OpenGL诞生于1992年，一直到现在还是最为流行的3D API。OpenGL具有高度的可移植性，可以运行在目前所有流行的操作系统上，如UNIX、Linux、Windows和Macintosh。
2.动画软件
Autodesk 3ds Max(原名为3D Studio Max)包括一组高端的专业工具，用于完成人物动画、游戏开发和视觉效果的制作。使用这一工具建立的模型在很多游戏中得到了应用，如Sony Playstation。
Autodesk Softimage（原名为Softimage XSI）是一款功能强大的建模、动画和渲染软件包，用于在游戏和电影中制作动画和生成特殊效果。
Autodesk Maya是Softimage的竞争对手，它包含了一个完整的建模软件包，拥有多种不同的建模和动画工具，例如构造逼真的衣物和皮毛的工具。它可以在Windows、Mac OS和Linux操作系统下运行。
3. GIF Animation Packages
为了能在Web应用中对小型动画进行简单有效的开发，很多共享软件和其他程序都支持GIF动画图像的制作。GIF包含了多幅图像，并通过它们之间的循环构成简单的动画。
Linux也提供了一些简单的动画工具，如animate。

1.3.6　多媒体编著

能够提供创建完整多媒体演示功能（包括交互式用户控制）的工具，称为编著（authoring）程序。
●Adobe Flash通过一种更类似于乐谱的方法来支持交互式电影的创作，因为并行的事件序列排列在时间线上，就好像乐谱中的音符一样。电影中的元素在Flash中称为符号（symbol）。符号被添加到一个名为库的中心存储库中，并可以添加到电影的时间线上。在指定的时刻需要显示这些符号时，它们就会出现在舞台(Stage)上。舞台给出了电影在某一时刻的内容，并可以通过Flash内置的工具进行操作和移动。Flash电影通常用来在Web上显示电影或游戏。
●Adobe Director用一种类似于电影的方法进行交互式演示的创作。这个功能强大的程序包括一种内置的脚本语言Lingo，可以进行复杂的交互式电影制作。Director中的角色包括位图分镜、脚本、音乐、声音和调色板。Director可以读入多种不同的位图格式。程序对交互性有良好的支持，Lingo（具有自己的调试器）则允许更多的控制行为，包括对外部设备的控制。
●Dreamweaver是一个网页编著工具，允许用户在不学习任何HTML的情况下制作多媒体演示文稿。

1.4　未来的多媒体

本书强调多媒体的基础原理，重点关注构成当今多媒体系统的基础和较为成熟的技术。然而值得注意的是，多媒体研究仍然有很大的发展空间，而且正在茁壮成长。它带来了很多令人兴奋的研究课题，我们一定会在不久的将来看到一些伟大的创新显著地改变我们的生活[12]。
例如，研究者曾经对基于摄像机的目标跟踪技术很感兴趣。但是，尽管人脸识别技术（相机软件在图像和视频中合理识别人脸）无处不在，人脸检测和目标跟踪还不能解决当今遇到的问题（虽然结合多个姿势的人脸跟踪是一个很有希望的方向[13]）。实际上，研究者对于这些课题的兴趣日渐衰减，需要一些新的突破。相反，目前的重点是事件检测，比如对于安全应用来说，检测到某人不小心将包落在了机场。
镜头检测（寻找视频中发生的场景变化）以及视频分类方向在一段时间内是比较吸引研究者注意的，但由于网络上存在着大量未经专业编辑的视频，这些老的课题又遇到了一些新的挑战。
如今，3D拍摄技术在传统的2D视频的基础上继续发展，已经能够在人说话期间获取其面部表情的动态特征，可以为低带宽的应用程序合成高度逼真的人脸动画。除此之外，来自多个摄像机或单个摄像机的不同光照下的多个视图可以准确地获取表示材质的形状和表面特性的数据，从而自动生成合成图形的模型。这使得可以为虚拟演员合成更为逼真的照片。针对残疾人士（尤其是对于弱视或老年人）的多媒体应用也是目前研究的热点。另一个相关的例子是Google眼镜，其配有光学头戴式显示器，可为用户提供类似于智能手机的交互式信息显示。它还可以无线连接Internet，利用自然语言语音指令进行通信。所有的这些都为极具潜力的可穿戴计算设备的发展做出了贡献。
像YouTube、Facebook、Twitter这些在线社交媒体，虽然在过去的十年间才出现，但它们迅速地改变了信息产生和分享的方式，甚至可以说改变了我们的日常生活。社交媒体是较受关注的研究领域之一，每年大约有近十万篇相关的学术论文产生。这带来了一系列有趣的新课题。
多媒体众包（crowdsourcing for multimedia）。多媒体众包是指将大量的来自参与人员的输入用于多媒体项目，这一课题得到了广泛的关注。比如，利用人们提供的一些标签来帮助理解图像或视频的视觉内容，就像亚马逊的“Mechanical Turk”，它将诸如视频语义注释这样耗时的任务外包给为了少量的报酬或仅仅为了乐趣而工作的人们。对大量人群直接进行“情感”分析，例如，要评估特定品牌的受欢迎程度，通过阅读关于该主题的几千条推文就可以证实。另一个例子是“数字时尚”（digital fashion），这个课题旨在开发出能够进行无线通信的功能增强型智能服装，以加强人们在社交环境中的人际交往。这类研究希望的是通过技术使得人们可以自动地传达某些想法和感觉，更方便地与配备类似技术的其他人进行交流。
可执行的学术论文（executable academic papers）。在科学和工程界，传播研究成果的一种传统方法是在学术期刊上发表论文。可执行论文则是一种完全利用数字化进行信息广播的新方法。这个想法诞生于这样的一个事实：发表的论文中所讨论的方法的实验结果往往难以复制，因为论文使用的数据集和实验代码通常不会作为出版的一部分公开出来。可执行论文允许“读者”对数据和代码进行交互和操作，以进一步了解论文中呈现的成果。此外，这个概念还包括允许读者重新运行代码、更改参数或上传不同的实验数据。
仿真虚拟人（animated lifelike virtual agents）。比如虚拟教育者，尤其是作为有特殊需要的儿童的社交伙伴；虚拟人还能够表现出情感和个性，并且能够扮演各种各样的角色。虚拟人的目标是灵活的，而不是固定的脚本。
行为科学模型可以模拟人与人之间的交互，进而用于虚拟人物之间的自然交互。这种“增强交互”(augmented interaction)可以用来开发真实的人和虚拟人物之间的用户界面，应用于诸如增强故事叙述等任务中。
这些应用推动了计算机技术的发展，产生了许多新的应用，并吸引了很多从业者。多媒体研究领域的引领者提出了几个重要的挑战，这些问题都是关于多媒体研究中最前沿的技术，目前包含以下内容：
●社交多媒体中的社交事件检测：发现人们计划和参与的社交事件，例如由人们拍摄并上传到社交媒体网站的多媒体内容所表现出的事件。
●电视内容搜索和超链接：针对特定的主题为相关的视频片段生成对这些片段的超链接。注意，不是人工地执行搜索和跟踪超链接，而是智能地、自动地实现。
●社交多媒体的地理坐标预测：使用包括标签、音频和用户这些所有可用的数据估计图像和视频的GPS坐标。
●电影中的暴力镜头检测：自动检测电影中描写暴力的部分。同样，所有可用数据（例如文字和音频）都可以发挥作用。
●监控视频中的隐私保护：这种方法可以隐藏私人信息（如Google Earth上的人脸），使视频中敏感的、隐私的元素无法被识别出来；但与此同时，视频仍然可以正常观看，同时还可以对视频执行一些计算机视觉任务，如目标跟踪。
●语音网络搜索：通过音频在音频内容中搜索和查询相关内容。
●语音网络中的问答：上面问题的一个变体，旨在将语音问题与一个语音答案集合进行匹配。
●广告配乐选择：从候选音乐中选出最合适的配乐。目的在于使用额外的特征（元数据）辅助完成这项任务，比如文本、对音频和视频的描述性特征计算、网页、社交标签等。
找到这些挑战的解决方案可能会很困难，但这些挑战的解决会对IT行业还有我们每一个人都产生巨大影响，因为我们都生活在数字多媒体时代。我们希望这本教科书能带给你有价值的多媒体知识，同时也希望你喜欢这本书，甚至希望这本书能为你未来的职业生涯（可能是上面列出的这些研究领域或其他方面）做出贡献。

1.5　练习

1.用自己的话解释什么是“多媒体”？多媒体是多种不同媒体的简单组合吗？
2.说出三种较有新意的多媒体应用。并给出你认为它们有新意的理由以及它们潜在的影响力。
3.讨论多媒体和超媒体之间的关系。
4.用自己的话简单解释Memex以及它在超文本方面的作用。我们今天还应该继续使用Memex的应用吗？你如何在自己的实际工作中应用Memex的理念？
5.讨论目前的一种采用模拟信号的媒体输入、存储或播放设备。它有必要转换为数字信号吗？模拟信号或数字信号的优缺点是什么？
6.假设你需要在Internet上传输气味，我们在某处有一台气味传感器，并且希望将芳香向量（以此为例）传输到一个接收器并复制出相同的气味。试设计一个这样的系统。列出需要考虑的三个主要问题和这类传输系统的两个应用。提示：考虑医学应用。
7.人物或物体的跟踪可以通过视觉或声音来完成。视觉系统的准确度较高，但是代价相对较为昂贵；而使用一组麦克风就可以在付出较少费用的情况下对人的方位进行精确度要求不高的定位。因此，视觉和声音方法的融合是很有意义的。上网查找是否有人应用这一理念开发了用于视频会议系统的工具。
8.非照片逼真度图像（non-photorealistic graphics）表示那些并非用来构建使图像看起来像相机拍摄的图像的计算机图形。比如，如果在会议中跟踪嘴唇的运动，我们可以生成和脸部相应的动画。如果不希望使用自己的脸部，我们可以使用其他的脸部来代替——脸部特征模型可以将嘴唇动作正确匹配到另一个模型上。试查找谁在进行avatar生成的研究（avatar是会议参与者身体动作的模拟表示）。
9.水印技术是在数据中嵌入隐藏信息的技术。它具有法律内涵：这幅图像是否被抄袭？这幅图像是否被篡改？这是由谁、在哪里完成的？想一想在拍摄图像时隐藏在图像中的能够识别出的信息，并回答上面这些问题。（类似的问题来源于移动电话的使用，我们可以用什么来确定是谁、在哪儿、在什么时候用这部手机？）

码农公寓

带你读《多媒体技术教程（原书第2版）》之一：多媒体导论

第1章