Qt音視頻開發04-保存音頻文件（pcm/wav/aac）

一、前言

音頻的保存相對來說比視頻的要簡單，具有通用性，不需要經過ffmpeg的編碼，ffmpeg解碼出來後一般會轉換成pcm原始的數據用來播放，所以對數據直接寫文件即可，但是這種格式是無法用播放器直接播放的，因爲採樣率、通道等參數未知，除非手動指定，所以就多出來一個wav格式，這個格式就是在pcm格式前面加上44字節的文件頭，所以wav格式的音頻文件永遠比pcm的文件大44字節，簡單來說pcm加上wav頭文件就變成了wav。所以這些就好辦了，在開始存儲的時候先寫入這個文件頭就行，後面一直插入pcm音頻數據即可。

由於wav文件體積很大，所以需要一個壓縮的播放器可以直接播放的，這樣就需要用aac格式存儲。ffmpeg收到後還沒有解碼出來在沒有轉換前默認的數據一般以aac格式居多，也有部分的是mp3之類的，所以如果要存儲爲aac格式，直接存儲最原始的packet的數據即可，這個數據是aac格式的壓縮過的音頻數據，每個數據包前面插入ADTS頭即可。可能你會有疑問每個包都插入了頭部字節，那不是文件體積更大，其實不是的，畢竟aac格式是一種聲音數據的文件壓縮格式，有着極高的壓縮比，這點頭部字節數據簡直是毛毛雨。

終上所述，三種格式的音頻數據可以滿足所有的情況，如果檢測到音頻解碼器用的aac則存儲aac格式，非aac則全部存儲成wav格式，如果不需要播放器支持就存儲成pcm格式即可。

二、效果圖

三、體驗地址

國內站點：https://gitee.com/feiyangqingyun
國際站點：https://github.com/feiyangqingyun
個人作品：https://blog.csdn.net/feiyangqingyun/article/details/97565652
體驗地址：https://pan.baidu.com/s/1d7TH_GEYl5nOecuNlWJJ7g 提取碼：01jf 文件名：bin_video_demo/bin_linux_video。

四、相關代碼

//保存視頻文件類型
enum SaveVideoType {
    SaveVideoType_None = 0,     //不保存
    SaveVideoType_Yuv = 1,      //原始數據
    SaveVideoType_H264 = 2,     //解碼後的裸流
    SaveVideoType_Mp4 = 3       //標準視頻文件
};

//保存音頻文件類型
enum SaveAudioType {
    SaveAudioType_None = 0,     //不保存
    SaveAudioType_Pcm = 1,      //原始數據
    SaveAudioType_Wav = 2,      //wav文件
    SaveAudioType_Aac = 3,      //aac文件
};

#include "savehelper.h"
void SaveHelper::pcmToWav(const QString &pcmFile, const QString &wavFile, int sampleRate, int channelCount, bool deleteFile)
{
    //wav音頻文件固定頭部字節(數據有順序要求)
    struct WaveFileHeader {
        //RIFF頭
        char riffName[4];
        quint32 riffLen;

        //數據類型標識符
        char wavName[4];

        //格式塊中的塊頭
        char fmtName[4];
        quint32 fmtLen;

        //音頻編碼格式
        quint16 audioFormat;
        //通道數量
        quint16 numChannels;
        //採樣率
        quint32 sampleRate;
        //波形數據傳輸速率
        quint32 bytesPerSecond;
        //數據塊對齊單位
        quint16 bytesPerSample;
        //每次採樣得到的樣本數據位數
        quint16 bitsPerSample;

        //數據塊中的塊頭
        char dataName[4];
        quint32 dataLen;
    };

    WaveFileHeader header;
    qstrcpy(header.riffName, "RIFF");
    qstrcpy(header.wavName, "WAVE");
    qstrcpy(header.fmtName, "fmt ");
    qstrcpy(header.dataName, "data");

    header.fmtLen = 16;
    header.audioFormat = 1;
    header.numChannels = channelCount;
    header.sampleRate = sampleRate;
    header.bytesPerSecond = channelCount * sampleRate;
    header.bytesPerSample = 2;
    header.bitsPerSample = 16;

    QFile filePcm(pcmFile);
    QFile fileWav(wavFile);
    if (!filePcm.open(QIODevice::ReadOnly) || !fileWav.open(QIODevice::WriteOnly)) {
        return;
    }

    //計算對應的長度大小
    int sizeHeader = sizeof(header);
    quint32 sizeData = filePcm.bytesAvailable();
    header.riffLen = (sizeData - 8 + sizeHeader);
    header.dataLen = sizeData;

    //先寫入頭部信息
    fileWav.write((const char *)&header, sizeHeader);
    //再寫入音頻數據
    fileWav.write(filePcm.readAll());

    //關閉文件
    filePcm.close();
    fileWav.close();

    //刪除文件
    if (deleteFile) {
        QFile(pcmFile).remove();
        qDebug() << TIMEMS << QString("刪除文件 -> 文件: %1").arg(pcmFile);
    }
}

int SaveHelper::getSamplingFrequencyIndex(int sampleRate)
{
    int freqIdx = 3;
    if (sampleRate == 96000) {
        freqIdx = 0;
    } else if (sampleRate == 88200) {
        freqIdx = 1;
    } else if (sampleRate == 64000) {
        freqIdx = 2;
    } else if (sampleRate == 48000) {
        freqIdx = 3;
    } else if (sampleRate == 44100) {
        freqIdx = 4;
    } else if (sampleRate == 32000) {
        freqIdx = 5;
    } else if (sampleRate == 24000) {
        freqIdx = 6;
    } else if (sampleRate == 22050) {
        freqIdx = 7;
    } else if (sampleRate == 16000) {
        freqIdx = 8;
    } else if (sampleRate == 12000) {
        freqIdx = 9;
    } else if (sampleRate == 11025) {
        freqIdx = 10;
    } else if (sampleRate == 8000) {
        freqIdx = 11;
    }

    return freqIdx;
}

void SaveHelper::adtsHeader(char *header, int len, int sampleRate, int channelCount, int profile)
{
    //抽取音頻命令 ffmpeg -i d:/1.mp4 -vn -y -acodec copy d:/1.aac
    //音頻adts頭部數據 https://blog.csdn.net/u013113678/article/details/123134860
    int chanCfg = channelCount;
    int freqIdx = getSamplingFrequencyIndex(sampleRate);
    int adtsLen = len + 7;

    //絕大部分音頻都是1或者-99未設置(有部分是4表示高壓縮率)
    //網上的算法缺少下面這個計算導致部分文件保存的音頻文件不正常
    if (profile > 1) {
        freqIdx += (profile - 1);
    }
    profile = 1;

#if 1
    header[0] = (char)0xff;
    header[1] = (char)0xf1;
    header[2] = (char)(((profile) << 6) + (freqIdx << 2) + (chanCfg >> 2));
    header[6] = (char)0xfc;

    header[3] = (char)(((2 & 3) << 6) + (adtsLen >> 11));
    header[4] = (char)((adtsLen & 0x7f8) >> 3);
    header[5] = (char)(((adtsLen & 0x7) << 5) + 0x1f);
#else
    header[0] = 0xff;
    header[1] = 0xf0;
    header[1] |= (0 << 3);
    header[1] |= (0 << 1);
    header[1] |= 1;

    header[2] = (profile) << 6;
    header[2] |= (freqIdx & 0x0f) << 2;
    header[2] |= (0 << 1);
    header[2] |= (chanCfg & 0x04) >> 2;

    header[3] = (chanCfg & 0x03) << 6;
    header[3] |= (0 << 5);
    header[3] |= (0 << 4);
    header[3] |= (0 << 3);
    header[3] |= (0 << 2);
    header[3] |= ((adtsLen & 0x1800) >> 11);

    header[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);
    header[5] = (uint8_t)((adtsLen & 0x7) << 5);
    header[5] |= 0x1f;
    header[6] = 0xfc;
#endif
}

五、功能特點

5.1 基礎功能

支持各種音頻視頻文件格式，比如mp3、wav、mp4、asf、rm、rmvb、mkv等。
支持本地攝像頭設備，可指定分辨率、幀率。
支持各種視頻流格式，比如rtp、rtsp、rtmp、http等。
本地音視頻文件和網絡音視頻文件，自動識別文件長度、播放進度、音量大小、靜音狀態等。
文件可以指定播放位置、調節音量大小、設置靜音狀態等。
支持倍速播放文件，可選0.5倍、1.0倍、2.5倍、5.0倍等速度，相當於慢放和快放。
支持開始播放、停止播放、暫停播放、繼續播放。
支持抓拍截圖，可指定文件路徑，可選抓拍完成是否自動顯示預覽。
支持錄像存儲，手動開始錄像、停止錄像，部分內核支持暫停錄像後繼續錄像，跳過不需要錄像的部分。
支持無感知切換循環播放、自動重連等機制。
提供播放成功、播放完成、收到解碼圖片、收到抓拍圖片、視頻尺寸變化、錄像狀態變化等信號。
多線程處理，一個解碼一個線程，不卡主界面。

5.2 特色功能

同時支持多種解碼內核，包括qmedia內核（Qt4/Qt5/Qt6）、ffmpeg內核（ffmpeg2/ffmpeg3/ffmpeg4/ffmpeg5）、vlc內核（vlc2/vlc3）、mpv內核（mpv1/mp2）、海康sdk、easyplayer內核等。
非常完善的多重基類設計，新增一種解碼內核只需要實現極少的代碼量，就可以應用整套機制。
同時支持多種畫面顯示策略，自動調整（原始分辨率小於顯示控件尺寸則按照原始分辨率大小顯示，否則等比例縮放）、等比例縮放（永遠等比例縮放）、拉伸填充（永遠拉伸填充）。所有內核和所有視頻顯示模式下都支持三種畫面顯示策略。
同時支持多種視頻顯示模式，句柄模式（傳入控件句柄交給對方繪製控制）、繪製模式（回調拿到數據後轉成QImage用QPainter繪製）、GPU模式（回調拿到數據後轉成yuv用QOpenglWidget繪製）。
支持多種硬件加速類型，ffmpeg可選dxva2、d3d11va等，mpv可選auto、dxva2、d3d11va，vlc可選any、dxva2、d3d11va。不同的系統環境有不同的類型選擇，比如linux系統有vaapi、vdpau，macos系統有videotoolbox。
解碼線程和顯示窗體分離，可指定任意解碼內核掛載到任意顯示窗體，動態切換。
支持共享解碼線程，默認開啓並且自動處理，當識別到相同的視頻地址，共享一個解碼線程，在網絡視頻環境中可以大大節約網絡流量以及對方設備的推流壓力。國內頂尖視頻廠商均採用此策略。這樣只要拉一路視頻流就可以共享到幾十個幾百個通道展示。
自動識別視頻旋轉角度並繪製，比如手機上拍攝的視頻一般是旋轉了90度的，播放的時候要自動旋轉處理，不然默認是倒着的。
自動識別視頻流播放過程中分辨率的變化，在視頻控件上自動調整尺寸。比如攝像機可以在使用過程中動態配置分辨率，當分辨率改動後對應視頻控件也要做出同步反應。
音視頻文件無感知自動切換循環播放，不會出現切換期間黑屏等肉眼可見的切換痕跡。
視頻控件同時支持任意解碼內核、任意畫面顯示策略、任意視頻顯示模式。
視頻控件懸浮條同時支持句柄、繪製、GPU三種模式，非絕對座標移來移去。
本地攝像頭設備支持指定設備名稱、分辨率、幀率進行播放。
錄像文件同時支持打開的視頻文件、本地攝像頭、網絡視頻流等。
瞬間響應打開和關閉，無論是打開不存在的視頻或者網絡流，探測設備是否存在，讀取中的超時等待，收到關閉指令立即中斷之前的操作並響應。
支持打開各種圖片文件，支持本地音視頻文件拖曳播放。
視頻控件懸浮條自帶開始和停止錄像切換、聲音靜音切換、抓拍截圖、關閉視頻等功能。
音頻組件支持聲音波形值數據解析，可以根據該值繪製波形曲線和柱狀聲音條，默認提供了聲音振幅信號。
各組件中極其詳細的打印信息提示，尤其是報錯信息提示，封裝的統一打印格式。針對現場複雜的設備環境測試極其方便有用，相當於精確定位到具體哪個通道哪個步驟出錯。
代碼框架和結構優化到最優，性能強悍，持續迭代更新升級。
源碼支持Qt4、Qt5、Qt6，兼容所有版本。

5.3 視頻控件

可動態添加任意多個osd標籤信息，標籤信息包括名字、是否可見、字號大小、文本文字、文本顏色、標籤圖片、標籤座標、標籤格式（文本、日期、時間、日期時間、圖片）、標籤位置（左上角、左下角、右上角、右下角、居中、自定義座標）。
可動態添加任意多個圖形信息，這個非常有用，比如人工智能算法解析後的圖形區域信息直接發給視頻控件即可。圖形信息支持任意形狀，直接繪製在原始圖片上，採用絕對座標。
圖形信息包括名字、邊框大小、邊框顏色、背景顏色、矩形區域、路徑集合、點座標集合等。
每個圖形信息都可指定三種區域中的一種或者多種，指定了的都會繪製。
內置懸浮條控件，懸浮條位置支持頂部、底部、左側、右側。
懸浮條控件參數包括邊距、間距、背景透明度、背景顏色、文本顏色、按下顏色、位置、按鈕圖標代碼集合、按鈕名稱標識集合、按鈕提示信息集合。
懸浮條控件一排工具按鈕可自定義，通過結構體參數設置，圖標可選圖形字體還是自定義圖片。
懸浮條按鈕內部實現了錄像切換、抓拍截圖、靜音切換、關閉視頻等功能，也可以自行在源碼中增加自己對應的功能。
懸浮條按鈕對應實現了功能的按鈕，有對應圖標切換處理，比如錄像按鈕按下後會切換到正在錄像中的圖標，聲音按鈕切換後變成靜音圖標，再次切換還原。
懸浮條按鈕單擊後都用名稱唯一標識作爲信號發出，可以自行關聯響應處理。
懸浮條空白區域可以顯示提示信息，默認顯示當前視頻分辨率大小，可以增加幀率、碼流大小等信息。
視頻控件參數包括邊框大小、邊框顏色、焦點顏色、背景顏色（默認透明）、文字顏色（默認全局文字顏色）、填充顏色（視頻外的空白處填充黑色）、背景文字、背景圖片（如果設置了圖片優先取圖片）、是否拷貝圖片、縮放顯示模式（自動調整、等比例縮放、拉伸填充）、視頻顯示模式（句柄、繪製、GPU）、啓用懸浮條、懸浮條尺寸（橫向爲高度、縱向爲寬度）、懸浮條位置（頂部、底部、左側、右側）。

5.4 內核ffmpeg

支持各種音視頻文件、本地攝像頭設備，各種視頻流網絡流。
支持開始播放、暫停播放、繼續播放、停止播放、設置播放進度、倍速播放。
可設置音量、靜音切換、抓拍圖片、錄像存儲。
自動提取專輯信息比如標題、藝術家、專輯、專輯封面，自動顯示專輯封面。
完美支持音視頻同步和倍速播放。
解碼策略支持速度優先、質量優先、均衡處理、最快速度。
支持手機視頻旋轉角度顯示，比如一般手機拍攝的視頻是旋轉了90度的，解碼顯示的時候需要重新旋轉90度纔是正的。
自動轉換yuv420格式，比如本地攝像頭是yuyv422格式，有些視頻文件是xx格式，統一將非yuv420格式轉換，然後再進行處理。
支持硬解碼dxva2、d3d11va等，性能極高尤其是大分辨率比如4K視頻。
視頻響應極低延遲0.2s左右，極速響應打開視頻流0.5s左右，專門做了優化處理。
硬解碼和GPU繪製組合，極低CPU佔用，比海康大華等客戶端更優。
支持視頻流中的各種音頻格式，AAC、PCM、G.726、G.711A、G.711Mu、G.711ulaw、G.711alaw、MP2L2等都支持，推薦選擇AAC兼容性跨平臺性最好。
視頻存儲支持yuv、h264、mp4多種格式，音頻存儲支持pcm、wav、aac多種格式。默認視頻mp4格式、音頻aac格式。
支持分開存儲音頻視頻文件，也支持合併到一個mp4文件，默認策略是無論何種音視頻文件格式存儲，最終都轉成mp4及aac格式，然後合併成音視頻一起的mp4文件。
支持本地攝像頭實時視頻顯示帶音頻輸入輸出，音視頻錄製合併到一個mp4文件。
支持H264/H265編碼（現在越來越多的監控攝像頭是H265視頻流格式）生成視頻文件，內部自動識別切換編碼格式。
自動識別視頻流動態分辨率改動，重新打開視頻流。
支持用戶信息中包含特殊字符（比如用戶信息中包含+#@等字符）的視頻流播放，內置解析轉義處理。
純qt+ffmpeg解碼，非sdl等第三方繪製播放依賴，gpu繪製採用qopenglwidget，音頻播放採用qaudiooutput。
同時支持ffmpeg2、ffmpeg3、ffmpeg4、ffmpeg5版本，全部做了兼容處理。如果需要支持xp需要選用ffmpeg3及以下。

Qt音視頻開發04-保存音頻文件（pcm/wav/aac）

一、前言

二、效果圖

三、體驗地址

四、相關代碼

五、功能特點

5.1 基礎功能

5.2 特色功能

5.3 視頻控件

5.4 內核ffmpeg

爲什麼要⽤ Foundry

【筆記】動手學深度學習-預備知識

py發送email

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

公司來了個新同事，把 DDD 運用得爐火純青！

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

Qt程序員必看/關於Qt收費的官方答覆

這可能是國內Qt/C++界最受歡迎開源項目之一/5.8Kstar/持續迭代更新

Qt/C++通用跨平臺Onvif工具/支持海康大華宇視華爲天地偉業等/雲臺控制/預置位管理/工程調試利器

Qt/C++監控推流設備推流/延遲極低/實時性極高/rtsp/rtmp推流/hls/flv/webrtc拉流/調整分辨率降低帶寬

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結