Webrtc音频引擎(一步一步读代码)

原創

2020-05-20 22:31

WebRTC音频引擎的实现代码主要分布在如下几个源码目录中：

webrtc/audio
webrtc/common_audio
webrtc/media/engine
webrtc/voice_engine
//音频编解码
webrtc/module/audio_coding
//接收端混音
webrtc/module/audio_conference_mixer
//音频输入输出设备
webrtc/module/audioDevide
//音频预处理(消回音、自动增益、降噪等)
webrtc/module/audio_processing

语音引擎架构图：

重要的几个类：

VoEBaseImpl；

SharedData:聚合类，包含一些重要的对象；

Channel:负责一路音频数据的重要操作，包括音频数据的前处理（消回音、降噪、自动增益）、编解码、发送、接受、后处理（混音）

VoEBaseImpl是连接底层音频采集播放模块AudioDeviceModule和音频引擎内部音频通道Channel的重要纽带。它实现三个接口：VoEBase负责创建Channel、启动/停止音频数据的发送/接收；AudioTransport负责AudioDeviceModule模块和Channel之间数据传送，包括采集后的音频数据发送到Channel进行编码、从Channel拉取解码后的音频数据进行播放；AudioDeviceObserver负责把AudioDeviceModule工作过程中出现的错误和警告向上层报告。

内容部分参考：https://www.jianshu.com/p/5a8a91cd84ef?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

Channel是对一路音频数据及其处理过程的抽象，是VoiceEngineImpl中最重要的底层实现类，其继承并实现RtpData、RtpFeedback、FileCallback、Transport、PacketizationCallback、ACMVADCallback、MixerParticipant等多个接口，分别负责音频数据编码后回掉、发送到网络、接收后存储到NetEq缓冲区、播放前混音等一些列重要操作。在类内部， Channel包含的重要成员对象包括RtpReceiver、RtpRtcpModule、AudioCodingModule、CodecManager、OutputMixer、TransmitMixer、ProcessThread、AudioDeviceModule、VoiceEngineObserver、Transport、AudioProcessing、PacketRouter等等。

AudioDeviceModule模块负责音频数据的采集和播放，是音频数据的发源地和目的地。其内部主要包含三个对象：AudioDeviceModule、AudioDeviceGeneric和AudioDeviceBuffer。AudioDeviceModule是对外接口类，负责对AudioDevice和AudioDeviceBuffer进行管理、设置和对音频数据进行传递。AudioDevice是平台相关的音频设备，它管理音频采集设备和播放设备，包括初始化、设置音频采集设备和播放设备、开始/停止设备、控制设备音量、设置设备的音频数据缓冲区，等等。在初始化阶段，AudioDevice创建采集线程和播放线程，用来执行采集任务和播放任务。AudioDeviceBuffer是音频数据缓冲区，负责临时存储和传递音频数据。

AudioCodingModule模块负责音频数据的编解码，它由音频引擎层的Channel持有并调用。在内部，AudioCodingModul包含如下重要对象：AcmReceiver、AudioEncoder、AudioDecoder和NetEq，其中AcmReceiver负责接收音频数据并存储到NetEq中，NetEq负责音频数据的抖动消除和错误隐藏，AudioEncoder负责音频数据编码，AudioDecoder负责音频数据解码。WebRTC支持一系列音频编解码器，包括CNG、G711、G722、ilbc、isac、opus等等。数据编码完成后通过AudioPacketizationCallback接口回调到Channel进行下一步发送工作，数据解码完成后由Channel拉取进行下一步播放工作。

Audio Processing模块实现音频数据的预处理操作，包括声学回声消除AEC、自动增益控制AGC、噪声抑制NS、语音活动检测VAD，等等。AudioProcessing聚合一系列子模块实现各种音频处理算法，其重要的对外接口由两个：ProcessStream()和ProcessReverseStream()，前者负责采集后编码前的音频数据的前处理，后者播放前解码后的音频数据的后处理。

TransmitMixer用于发送端混音。OutputMixer用于接收端混音。OutputMixer在内部使用AudioConferenceMixer负责解码后音频数据的混音操作。

从整个音频链路上来说，包含了如下几个步骤（5个重要的底层模块）：

音频数据的采集（AudioDeviceModule）-> 音频数据的预处理（AudioProcessing）->音频数据的编码（AudioCodingModule）->音频数据的网络传输（NetEq）->音频数据的解码（AudioCodingModule）->终端混音（AudioConferenceMixer）

WebRtcMediaEngine2在MediaEngine层对底层的音视频引擎进行封装，分别是WebRtcVoiceEngine和WebRtcVideoEngine2。而WebRtcVoiceEngine则封装了音频引擎层的VoiceEngineImpl对象。VoiceEngineImpl以多继承方式聚集一系列接口，包括SharedData、VoEAudioProcessingImpl、VoECodecImpl、VoENetworkImpl、VoEBaseImpl

SharedData是一个聚合类，内部包括ChannelManager、AudioDeviceModule、OutputMixer、TransmitMixer、AudioProcess等对象，大部分关于VoiceEngineImpl的操作最终都会经过SharedData委托给内部对象。在创建SharedData对象时，其构造函数会创建一个名为“VoiceProcessThread”的线程，该线程用以处理音频引擎的周期性事务。</p>

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Webrtc音频引擎(一步一步读代码)

C++11 mutable

C++11 寬窄字符轉換

對稱型NAT打洞的理解筆記

容易出錯的windows程序編譯

消迴音原理與項目經驗

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結