从开发小白到直播软件开发的音视频专家

2022-01-15 19:45:56

本文整理自卢俊的演讲，目标读者是对音视频开发感兴趣但是又不知道如何下手的初学者们，希望对大家有所帮助。

成长的烦恼
经常收到一些网友的来信或者留言，反馈如下这样的困惑：

“我是一名应届毕业生，该如何快速地成长起来”
“我只懂 C/C++，是学 Android 开发有前途，还是 iOS 开发有前途？”
“我是一名 Android/iOS 开发，已经可以独立完成一个完整的 App 开发上线，该如何继续提升？”
“我想从事音视频开发，该如何入门？如何进阶？”

很高兴看到大家有这样的问题，因为这也从侧面反映了你是一个积极向上，想不断努力来提升自己的人。

我就先从一个简单的问题聊起，“到底 Android 开发有前途还是 iOS 开发有前途？”

其实这个问题跟 “PHP 是不是世界上最好的语言一样”，只会引发争论，却没有什么实际价值，在我看来，无论是 Windows、Linux、Android 还是 iOS 开发，都没有什么优劣之分，它们其实都有着很多的共同点，那就是：

都是基于操作系统提供的 API 完成特定需求的实现

当然，也有些不同的地方，比如：

系统的 API 和特性不同
编程语言不同，Windows/Linux 以 C/C++ 为主，Android 以 Java 为主，iOS 以 Object C 为主等等
但无论什么平台，他们的学习曲线其实是类似的，都要经历差不多如下的环节：

学习对应平台的编程语言，如：C/C++，Java，Object C，Javascript 等
熟悉对应平台提供的 API，如：UI 库，网络，文件，数据库，图片处理，多媒体处理等等
掌握平台相关的特性、框架和原理，如：Windows 的 WINSOCK，ODBC，WPF 等，Unix 的设计哲学，Android 的四大组件，iOS 的 MVC 模式等等
通过具体的项目，熟悉和练手，达到可完成任意功能的开发
当你已经走到第 4 步了后，往往就会感觉遇到了瓶颈，产生如文章开头的问题，下一步何去何从？

其实我一直有一个观点，就是：

“基于平台的 API 做应用开发，并不是一个可以走得多远的方向，真正有价值的地方在于与具体的业务方向结合”，比如：

网络安全
音视频
智能硬件
深度学习
大数据
其他（比如：金融、通信等）
在具体的业务领域，你可以慢慢沉淀下来，用自己的努力和时间换来对领域知识的深入理解和积累，逐渐从一个开发小白走向最懂这个行业的专家。

今天呢，我就主要跟大家分享下，如果你对音视频这个领域感兴趣，应该如何入门和提高？

2.音视频开发包括哪些内容
虽然一篇文章无法把音视频开发的知识点都介绍清楚，但是大概的学习路线还是可以梳理一下的，我们先看看下面这张图：

其实说白了，音视频开发，就是要掌握图像、音频、视频的基础知识，并且学会如何对它们进行采集、渲染、处理、传输等一系列的开发和应用。

采集：它解决的是，数据从哪里来的问题
渲染：它解决的是，数据怎么展现的问题
处理：它解决的是，数据怎么加工的问题
传输：它解决的是，数据怎么共享的问题
每一个门类，都可以深挖，衍生出一个又一个充满技术挑战的话题，比如：如何更高效地渲染画面、如何提高音视频的压缩比，如何优化弱网下的音视频数据传输等等。

其实，音视频开发的技术积累，也没有那么难，带着问题去 Google，带着任务去实践，一切都不是问题，我们就从上面说的 4 个方向，逐个探索一下，有哪些知识点，是要我们去了解和掌握的。

2.1 采集

采集，它解决的是，数据从哪里来的问题，那么，数据究竟从哪里来的呢？

其实无论在哪个平台，图像、视频最初都是来自摄像头，而音频最初都是来自麦克风，因此，做音视频采集，就要掌握如下的技术知识：

系统的摄像头采集接口是什么，怎么用？

比如：

Windows：DirectShow
Linux：V4L2
Android：Camera
iOS：AVCaptureSession

系统的摄像头采集的参数怎么配置，都是什么含义？

比如：分辨率、帧率、预览方向、对焦、闪光灯等

系统的摄像头输出的图像/视频数据，是什么格式，不同格式有什么区别？

比如：

图片：JPEG；
视频数据：NV21，NV12，I420 等

系统的麦克风采集接口是什么，怎么用？

比如：

Windows：DirectShow
Linux：ALSA & OSS
Android：AudioRecord
iOS：Audio Unit

系统的麦克风采集参数怎么配置，都是什么含义？

比如：

采样率、通道号、位宽等

系统的麦克风输出的音频数据，是什么格式？

比如：

PCM

2.2 渲染

渲染，它解决的是，数据怎么展现的问题，那么，数据究竟怎么展现呢？

其实无论在哪个平台，图像、视频最终都是要绘制到视图上面，而音频最终都是要输出到扬声器，因此，做音视频渲染，就要掌握如下的技术知识：

系统提供了哪些 API 可以绘制一张图片或者一帧 YUV 图像数据的？

比如：

Windows：DirectDraw, Direct3D, GDI，OpenGL 等
Linux： GDI， OpenGL 等
Android：ImageView，SurfaceView，TextureView，OpenGL 等
iOS： CoreGraphics，OpenGL 等

系统提供了哪些 API 可以播放一个 mp3 或者 pcm 数据？

比如：

Windows：DirectSound 等
Linux：ALSA & OSS 等
Android：AudioTrack 等
iOS： AudioQueue 等

2.3 处理

处理，它解决的是，数据怎么加工的问题，那么，数据究竟可以怎么加工呢？

首先，我们看看图像/音视频的数据可以做哪些加工？

其实无论在哪个平台，图像和音视频的加工，除了系统的 API，大多数都会依赖一些跨平台的第三方库的，通过掌握这些第三方库的原理和使用方法，基本上就可以满足日常音视频处理工作了，这些库包括但不限于：

图像处理：OpenGL，OpenCV，libyuv，ffmpeg 等
视频编解码：x264，OpenH264，ffmpeg 等
音频处理：speexdsp，ffmpeg 等
d.音频编解码：libfaac，opus，speex，ffmpeg 等

因此，学习和掌握这些第三方库的使用，非常有必要。

2.4 传输

传输，它解决的是，数据怎么共享的问题，那么，数据究竟怎么共享呢？

共享，最重要的一点，就是协议。

我觉得互联网之所以能够如此蓬勃地发展，将整个世界都紧密联系在一起，其实是离不开 W3C 这个委员会的巨大贡献的，因为无论什么数据，要想在不同的国家、不同设备之间互联互通，离不开 “标准”，有了 “标准”，大家就能互相读懂对方。

因此，研究音视频传输，其实就是在研究协议，具体有哪些协议呢？

音视频在传输前，怎么打包的，如：FLV，ts，mpeg4 等
直播推流，有哪些常见的协议，如：RTMP，RSTP 等
直播拉流，有哪些常见的协议，如：RTMP，HLS，HDL，RTSP 等
基于 UDP 的协议有哪些？如：RTP/RTCP，QUIC 等

互联网环境下的音视频的传输，是一个非常有挑战和价值的方向，为了解决弱网下的传输延时、卡顿，提高用户体验，整个业界都在不断地进行着深入的探索和优化。

3.小结
限于篇幅原因，经验分享就到这里了，音视频的路很长，更多的还是要靠自己去学习和实践，带着追求极致的精神去探索和优化，相信大家都能快速成长，成为真正的行业专家！

本文转载于https://blog.csdn.net/dev_csdn/article/details/78738806?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159825934719725264650504%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=159825934719725264650504&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~sobaiduend~default-4-78738806.pc_v2_rank_blog_v1&utm_term=%E9%9F%B3%E8%A7%86%E9%A2%91&spm=1018.2118.3001.4187

码农公寓

相关文章