原创 聲音場景分類問題探討

如果按照上一篇的想法來做的話,我估計效果不好。 策略:提取視頻時長所有音頻,特徵提取後進入VGG網絡,然後將VGG features avg,這樣特徵如果不明顯的話就可能在avg後直接消失了,這種影響還是很大的。我估計最後可能會完全趨於白

原创 聲音高層特徵提取

嗨,Dear,我是小明哥,上面幾篇博文都是關於圖像的【嚴格說是這樣,但我用來近似視頻,雖然有點不合理,但現在似乎沒有提取視頻features的經典方法】那麼現在我用於聲音場景分類也是可行的。 1-npz格式數據是字典,可以通過key來取值

原创 人臉驗證1:1——用現有庫做

哈嘍,我是菜鳥小明哥。 今天遇到個問題,其實這個問題存在已久了,就是簡單的人臉驗證,1:1識別,我覺得這是個基本問題,應用場景廣泛,如果這個都沒有做過,豈不是很笨,很尷尬。所以今天還是用現有的庫做一下。 1-人臉檢測 這個可能是必備的,d

原创 keras.layers.BatchNormalization是一種歸一化嗎?

由上面兩篇關於L2-norm的博文說開來,那就必然會扯到keras中的keras.layers.BatchNormalization,這個玩意是啥作用呢? keras.layers.BatchNormalization github源碼

原创 import pyyaml Error

>>> import pyyaml Traceback (most recent call last): File "<pyshell#170>", line 1, in <module> import pyyaml Mod

原创 PCA局部與整體的關係

哈嘍,今天週六啦。不知道有多少妹子想我呢。哈哈。 言歸正傳。這個問題源於菜鳥思維。 數據集X shape (1000,64)的整體進行PCA與分成兩部分或多部分是否結果相同??爲何不同?差別大不大?爲何? 依舊以MNIST數據集爲例進行探

原创 視頻高層特徵分類實際測試

接上一篇:https://blog.csdn.net/SPESEG/article/details/103875916 用的抖音的視頻數據,測試找來的我司視頻,看看效果如何。 策略:隨機抽幀20~40幀,堆疊所有幀,按照index選幀,然

原创 Accelerating BN Networks& BN層加速?

前情提要:第一篇,第二篇 參考BN的paper可以獲知:爲了加快含BN層網絡的模型訓練,可以做 作者已然說明,僅僅將BN層用於一個網絡並不會出現作者方法所有的優勢,下面的操作可能會改善效果 1.增大學習率; 2.去掉Dropout,BN和

原创 feature scaling

其實上面的l2 norm也可看做是一種feature scaling, 更詳細的特徵尺度化詳見這個博文。   點贊 1 收藏 分享 文章舉報 SpeechImageKing 發佈

原创 視頻動作相似性或僅僅是圖像的相似性?

哈嘍,大家好,我是人見人愛,花見花開的小明哥。 視頻內容的理解並不容易,語義在人看來是很容易做到的,而網絡沒有人腦那麼大的容量,肯定比不上人。 之前提取的視頻特徵其實說實話是圖像特徵,我之前也有提到,並沒有動作的識別或理解。      

原创 ValueError: Object arrays cannot be loaded when allow_pickle=False

這個問題其實不是需要改那個關鍵字參數/形參,而是數據有問題。 如果你真的想改的話,給你參考。 np.load('./vfdsgv.npy'),allow_pickle=True)   點贊 1 收藏 分享

原创 UserWarning: PySoundFile failed. Trying audioread instead.

老子安裝librosa後出現這個warning,真是夠了,啥玩意。雖是警告,但看起來不順眼,不舒服,想去掉。 完整錯誤如下: UserWarning: PySoundFile failed. Trying audioread inste

原创 維度不同如何做相似度??

目前似乎沒有不同維度的數據的相似度,只能通過一些方法來做,下面是我的嘗試,僅供參考。 考慮到人臉識別及驗證中其實不同圖像人臉也不一樣大,是如何做的識別?? 這個是有圖像的resize存在,然後經過模型得到特徵進行相似度對比。 因此是否可以

原创 基於音頻分類的視頻內容推薦

哈嘍大家好,上面幾篇做法是提取的對數mel譜然後用VGG做embedding特徵,是否靠譜不得而知,但效果很差是明顯的,寡人猜測原因:1.VGG訓練的數據很短,很乾淨,沒有其他雜音;2.其他細節問題,比如參數的微調;3.其他特徵?? 很多

原创 sklearn PCA與LDA對比

接上一篇:這次與LDA進行對比,看下效果如何。   1用sklearn產生的隨機10個類別數據 初始特徵爲30個,由於下面條件限制,只能設置小於9的數,因此選擇了8 n_components <= min(n_features, n_c