Qt音視頻開發04-保存音頻文件(pcm/wav/aac)

一、前言

音頻的保存相對來說比視頻的要簡單,具有通用性,不需要經過ffmpeg的編碼,ffmpeg解碼出來後一般會轉換成pcm原始的數據用來播放,所以對數據直接寫文件即可,但是這種格式是無法用播放器直接播放的,因爲採樣率、通道等參數未知,除非手動指定,所以就多出來一個wav格式,這個格式就是在pcm格式前面加上44字節的文件頭,所以wav格式的音頻文件永遠比pcm的文件大44字節,簡單來說pcm加上wav頭文件就變成了wav。所以這些就好辦了,在開始存儲的時候先寫入這個文件頭就行,後面一直插入pcm音頻數據即可。

由於wav文件體積很大,所以需要一個壓縮的播放器可以直接播放的,這樣就需要用aac格式存儲。ffmpeg收到後還沒有解碼出來在沒有轉換前默認的數據一般以aac格式居多,也有部分的是mp3之類的,所以如果要存儲爲aac格式,直接存儲最原始的packet的數據即可,這個數據是aac格式的壓縮過的音頻數據,每個數據包前面插入ADTS頭即可。可能你會有疑問每個包都插入了頭部字節,那不是文件體積更大,其實不是的,畢竟aac格式是一種聲音數據的文件壓縮格式,有着極高的壓縮比,這點頭部字節數據簡直是毛毛雨。

終上所述,三種格式的音頻數據可以滿足所有的情況,如果檢測到音頻解碼器用的aac則存儲aac格式,非aac則全部存儲成wav格式,如果不需要播放器支持就存儲成pcm格式即可。

二、效果圖


三、體驗地址

  1. 國內站點:https://gitee.com/feiyangqingyun
  2. 國際站點:https://github.com/feiyangqingyun
  3. 個人作品:https://blog.csdn.net/feiyangqingyun/article/details/97565652
  4. 體驗地址:https://pan.baidu.com/s/1d7TH_GEYl5nOecuNlWJJ7g 提取碼:01jf 文件名:bin_video_demo/bin_linux_video。

四、相關代碼

//保存視頻文件類型
enum SaveVideoType {
    SaveVideoType_None = 0,     //不保存
    SaveVideoType_Yuv = 1,      //原始數據
    SaveVideoType_H264 = 2,     //解碼後的裸流
    SaveVideoType_Mp4 = 3       //標準視頻文件
};

//保存音頻文件類型
enum SaveAudioType {
    SaveAudioType_None = 0,     //不保存
    SaveAudioType_Pcm = 1,      //原始數據
    SaveAudioType_Wav = 2,      //wav文件
    SaveAudioType_Aac = 3,      //aac文件
};

#include "savehelper.h"
void SaveHelper::pcmToWav(const QString &pcmFile, const QString &wavFile, int sampleRate, int channelCount, bool deleteFile)
{
    //wav音頻文件固定頭部字節(數據有順序要求)
    struct WaveFileHeader {
        //RIFF頭
        char riffName[4];
        quint32 riffLen;

        //數據類型標識符
        char wavName[4];

        //格式塊中的塊頭
        char fmtName[4];
        quint32 fmtLen;

        //音頻編碼格式
        quint16 audioFormat;
        //通道數量
        quint16 numChannels;
        //採樣率
        quint32 sampleRate;
        //波形數據傳輸速率
        quint32 bytesPerSecond;
        //數據塊對齊單位
        quint16 bytesPerSample;
        //每次採樣得到的樣本數據位數
        quint16 bitsPerSample;

        //數據塊中的塊頭
        char dataName[4];
        quint32 dataLen;
    };

    WaveFileHeader header;
    qstrcpy(header.riffName, "RIFF");
    qstrcpy(header.wavName, "WAVE");
    qstrcpy(header.fmtName, "fmt ");
    qstrcpy(header.dataName, "data");

    header.fmtLen = 16;
    header.audioFormat = 1;
    header.numChannels = channelCount;
    header.sampleRate = sampleRate;
    header.bytesPerSecond = channelCount * sampleRate;
    header.bytesPerSample = 2;
    header.bitsPerSample = 16;

    QFile filePcm(pcmFile);
    QFile fileWav(wavFile);
    if (!filePcm.open(QIODevice::ReadOnly) || !fileWav.open(QIODevice::WriteOnly)) {
        return;
    }

    //計算對應的長度大小
    int sizeHeader = sizeof(header);
    quint32 sizeData = filePcm.bytesAvailable();
    header.riffLen = (sizeData - 8 + sizeHeader);
    header.dataLen = sizeData;

    //先寫入頭部信息
    fileWav.write((const char *)&header, sizeHeader);
    //再寫入音頻數據
    fileWav.write(filePcm.readAll());

    //關閉文件
    filePcm.close();
    fileWav.close();

    //刪除文件
    if (deleteFile) {
        QFile(pcmFile).remove();
        qDebug() << TIMEMS << QString("刪除文件 -> 文件: %1").arg(pcmFile);
    }
}

int SaveHelper::getSamplingFrequencyIndex(int sampleRate)
{
    int freqIdx = 3;
    if (sampleRate == 96000) {
        freqIdx = 0;
    } else if (sampleRate == 88200) {
        freqIdx = 1;
    } else if (sampleRate == 64000) {
        freqIdx = 2;
    } else if (sampleRate == 48000) {
        freqIdx = 3;
    } else if (sampleRate == 44100) {
        freqIdx = 4;
    } else if (sampleRate == 32000) {
        freqIdx = 5;
    } else if (sampleRate == 24000) {
        freqIdx = 6;
    } else if (sampleRate == 22050) {
        freqIdx = 7;
    } else if (sampleRate == 16000) {
        freqIdx = 8;
    } else if (sampleRate == 12000) {
        freqIdx = 9;
    } else if (sampleRate == 11025) {
        freqIdx = 10;
    } else if (sampleRate == 8000) {
        freqIdx = 11;
    }

    return freqIdx;
}

void SaveHelper::adtsHeader(char *header, int len, int sampleRate, int channelCount, int profile)
{
    //抽取音頻命令 ffmpeg -i d:/1.mp4 -vn -y -acodec copy d:/1.aac
    //音頻adts頭部數據 https://blog.csdn.net/u013113678/article/details/123134860
    int chanCfg = channelCount;
    int freqIdx = getSamplingFrequencyIndex(sampleRate);
    int adtsLen = len + 7;

    //絕大部分音頻都是1或者-99未設置(有部分是4表示高壓縮率)
    //網上的算法缺少下面這個計算導致部分文件保存的音頻文件不正常
    if (profile > 1) {
        freqIdx += (profile - 1);
    }
    profile = 1;

#if 1
    header[0] = (char)0xff;
    header[1] = (char)0xf1;
    header[2] = (char)(((profile) << 6) + (freqIdx << 2) + (chanCfg >> 2));
    header[6] = (char)0xfc;

    header[3] = (char)(((2 & 3) << 6) + (adtsLen >> 11));
    header[4] = (char)((adtsLen & 0x7f8) >> 3);
    header[5] = (char)(((adtsLen & 0x7) << 5) + 0x1f);
#else
    header[0] = 0xff;
    header[1] = 0xf0;
    header[1] |= (0 << 3);
    header[1] |= (0 << 1);
    header[1] |= 1;

    header[2] = (profile) << 6;
    header[2] |= (freqIdx & 0x0f) << 2;
    header[2] |= (0 << 1);
    header[2] |= (chanCfg & 0x04) >> 2;

    header[3] = (chanCfg & 0x03) << 6;
    header[3] |= (0 << 5);
    header[3] |= (0 << 4);
    header[3] |= (0 << 3);
    header[3] |= (0 << 2);
    header[3] |= ((adtsLen & 0x1800) >> 11);

    header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);
    header[5] = (uint8_t)((adtsLen & 0x7) << 5);
    header[5] |= 0x1f;
    header[6] = 0xfc;
#endif
}

五、功能特點

5.1 基礎功能

  1. 支持各種音頻視頻文件格式,比如mp3、wav、mp4、asf、rm、rmvb、mkv等。
  2. 支持本地攝像頭設備,可指定分辨率、幀率。
  3. 支持各種視頻流格式,比如rtp、rtsp、rtmp、http等。
  4. 本地音視頻文件和網絡音視頻文件,自動識別文件長度、播放進度、音量大小、靜音狀態等。
  5. 文件可以指定播放位置、調節音量大小、設置靜音狀態等。
  6. 支持倍速播放文件,可選0.5倍、1.0倍、2.5倍、5.0倍等速度,相當於慢放和快放。
  7. 支持開始播放、停止播放、暫停播放、繼續播放。
  8. 支持抓拍截圖,可指定文件路徑,可選抓拍完成是否自動顯示預覽。
  9. 支持錄像存儲,手動開始錄像、停止錄像,部分內核支持暫停錄像後繼續錄像,跳過不需要錄像的部分。
  10. 支持無感知切換循環播放、自動重連等機制。
  11. 提供播放成功、播放完成、收到解碼圖片、收到抓拍圖片、視頻尺寸變化、錄像狀態變化等信號。
  12. 多線程處理,一個解碼一個線程,不卡主界面。

5.2 特色功能

  1. 同時支持多種解碼內核,包括qmedia內核(Qt4/Qt5/Qt6)、ffmpeg內核(ffmpeg2/ffmpeg3/ffmpeg4/ffmpeg5)、vlc內核(vlc2/vlc3)、mpv內核(mpv1/mp2)、海康sdk、easyplayer內核等。
  2. 非常完善的多重基類設計,新增一種解碼內核只需要實現極少的代碼量,就可以應用整套機制。
  3. 同時支持多種畫面顯示策略,自動調整(原始分辨率小於顯示控件尺寸則按照原始分辨率大小顯示,否則等比例縮放)、等比例縮放(永遠等比例縮放)、拉伸填充(永遠拉伸填充)。所有內核和所有視頻顯示模式下都支持三種畫面顯示策略。
  4. 同時支持多種視頻顯示模式,句柄模式(傳入控件句柄交給對方繪製控制)、繪製模式(回調拿到數據後轉成QImage用QPainter繪製)、GPU模式(回調拿到數據後轉成yuv用QOpenglWidget繪製)。
  5. 支持多種硬件加速類型,ffmpeg可選dxva2、d3d11va等,mpv可選auto、dxva2、d3d11va,vlc可選any、dxva2、d3d11va。不同的系統環境有不同的類型選擇,比如linux系統有vaapi、vdpau,macos系統有videotoolbox。
  6. 解碼線程和顯示窗體分離,可指定任意解碼內核掛載到任意顯示窗體,動態切換。
  7. 支持共享解碼線程,默認開啓並且自動處理,當識別到相同的視頻地址,共享一個解碼線程,在網絡視頻環境中可以大大節約網絡流量以及對方設備的推流壓力。國內頂尖視頻廠商均採用此策略。這樣只要拉一路視頻流就可以共享到幾十個幾百個通道展示。
  8. 自動識別視頻旋轉角度並繪製,比如手機上拍攝的視頻一般是旋轉了90度的,播放的時候要自動旋轉處理,不然默認是倒着的。
  9. 自動識別視頻流播放過程中分辨率的變化,在視頻控件上自動調整尺寸。比如攝像機可以在使用過程中動態配置分辨率,當分辨率改動後對應視頻控件也要做出同步反應。
  10. 音視頻文件無感知自動切換循環播放,不會出現切換期間黑屏等肉眼可見的切換痕跡。
  11. 視頻控件同時支持任意解碼內核、任意畫面顯示策略、任意視頻顯示模式。
  12. 視頻控件懸浮條同時支持句柄、繪製、GPU三種模式,非絕對座標移來移去。
  13. 本地攝像頭設備支持指定設備名稱、分辨率、幀率進行播放。
  14. 錄像文件同時支持打開的視頻文件、本地攝像頭、網絡視頻流等。
  15. 瞬間響應打開和關閉,無論是打開不存在的視頻或者網絡流,探測設備是否存在,讀取中的超時等待,收到關閉指令立即中斷之前的操作並響應。
  16. 支持打開各種圖片文件,支持本地音視頻文件拖曳播放。
  17. 視頻控件懸浮條自帶開始和停止錄像切換、聲音靜音切換、抓拍截圖、關閉視頻等功能。
  18. 音頻組件支持聲音波形值數據解析,可以根據該值繪製波形曲線和柱狀聲音條,默認提供了聲音振幅信號。
  19. 各組件中極其詳細的打印信息提示,尤其是報錯信息提示,封裝的統一打印格式。針對現場複雜的設備環境測試極其方便有用,相當於精確定位到具體哪個通道哪個步驟出錯。
  20. 代碼框架和結構優化到最優,性能強悍,持續迭代更新升級。
  21. 源碼支持Qt4、Qt5、Qt6,兼容所有版本。

5.3 視頻控件

  1. 可動態添加任意多個osd標籤信息,標籤信息包括名字、是否可見、字號大小、文本文字、文本顏色、標籤圖片、標籤座標、標籤格式(文本、日期、時間、日期時間、圖片)、標籤位置(左上角、左下角、右上角、右下角、居中、自定義座標)。
  2. 可動態添加任意多個圖形信息,這個非常有用,比如人工智能算法解析後的圖形區域信息直接發給視頻控件即可。圖形信息支持任意形狀,直接繪製在原始圖片上,採用絕對座標。
  3. 圖形信息包括名字、邊框大小、邊框顏色、背景顏色、矩形區域、路徑集合、點座標集合等。
  4. 每個圖形信息都可指定三種區域中的一種或者多種,指定了的都會繪製。
  5. 內置懸浮條控件,懸浮條位置支持頂部、底部、左側、右側。
  6. 懸浮條控件參數包括邊距、間距、背景透明度、背景顏色、文本顏色、按下顏色、位置、按鈕圖標代碼集合、按鈕名稱標識集合、按鈕提示信息集合。
  7. 懸浮條控件一排工具按鈕可自定義,通過結構體參數設置,圖標可選圖形字體還是自定義圖片。
  8. 懸浮條按鈕內部實現了錄像切換、抓拍截圖、靜音切換、關閉視頻等功能,也可以自行在源碼中增加自己對應的功能。
  9. 懸浮條按鈕對應實現了功能的按鈕,有對應圖標切換處理,比如錄像按鈕按下後會切換到正在錄像中的圖標,聲音按鈕切換後變成靜音圖標,再次切換還原。
  10. 懸浮條按鈕單擊後都用名稱唯一標識作爲信號發出,可以自行關聯響應處理。
  11. 懸浮條空白區域可以顯示提示信息,默認顯示當前視頻分辨率大小,可以增加幀率、碼流大小等信息。
  12. 視頻控件參數包括邊框大小、邊框顏色、焦點顏色、背景顏色(默認透明)、文字顏色(默認全局文字顏色)、填充顏色(視頻外的空白處填充黑色)、背景文字、背景圖片(如果設置了圖片優先取圖片)、是否拷貝圖片、縮放顯示模式(自動調整、等比例縮放、拉伸填充)、視頻顯示模式(句柄、繪製、GPU)、啓用懸浮條、懸浮條尺寸(橫向爲高度、縱向爲寬度)、懸浮條位置(頂部、底部、左側、右側)。

5.4 內核ffmpeg

  1. 支持各種音視頻文件、本地攝像頭設備,各種視頻流網絡流。
  2. 支持開始播放、暫停播放、繼續播放、停止播放、設置播放進度、倍速播放。
  3. 可設置音量、靜音切換、抓拍圖片、錄像存儲。
  4. 自動提取專輯信息比如標題、藝術家、專輯、專輯封面,自動顯示專輯封面。
  5. 完美支持音視頻同步和倍速播放。
  6. 解碼策略支持速度優先、質量優先、均衡處理、最快速度。
  7. 支持手機視頻旋轉角度顯示,比如一般手機拍攝的視頻是旋轉了90度的,解碼顯示的時候需要重新旋轉90度纔是正的。
  8. 自動轉換yuv420格式,比如本地攝像頭是yuyv422格式,有些視頻文件是xx格式,統一將非yuv420格式轉換,然後再進行處理。
  9. 支持硬解碼dxva2、d3d11va等,性能極高尤其是大分辨率比如4K視頻。
  10. 視頻響應極低延遲0.2s左右,極速響應打開視頻流0.5s左右,專門做了優化處理。
  11. 硬解碼和GPU繪製組合,極低CPU佔用,比海康大華等客戶端更優。
  12. 支持視頻流中的各種音頻格式,AAC、PCM、G.726、G.711A、G.711Mu、G.711ulaw、G.711alaw、MP2L2等都支持,推薦選擇AAC兼容性跨平臺性最好。
  13. 視頻存儲支持yuv、h264、mp4多種格式,音頻存儲支持pcm、wav、aac多種格式。默認視頻mp4格式、音頻aac格式。
  14. 支持分開存儲音頻視頻文件,也支持合併到一個mp4文件,默認策略是無論何種音視頻文件格式存儲,最終都轉成mp4及aac格式,然後合併成音視頻一起的mp4文件。
  15. 支持本地攝像頭實時視頻顯示帶音頻輸入輸出,音視頻錄製合併到一個mp4文件。
  16. 支持H264/H265編碼(現在越來越多的監控攝像頭是H265視頻流格式)生成視頻文件,內部自動識別切換編碼格式。
  17. 自動識別視頻流動態分辨率改動,重新打開視頻流。
  18. 支持用戶信息中包含特殊字符(比如用戶信息中包含+#@等字符)的視頻流播放,內置解析轉義處理。
  19. 純qt+ffmpeg解碼,非sdl等第三方繪製播放依賴,gpu繪製採用qopenglwidget,音頻播放採用qaudiooutput。
  20. 同時支持ffmpeg2、ffmpeg3、ffmpeg4、ffmpeg5版本,全部做了兼容處理。如果需要支持xp需要選用ffmpeg3及以下。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章