台部落SpeechImageKing

如果按照上一篇的想法來做的話，我估計效果不好。策略：提取視頻時長所有音頻，特徵提取後進入VGG網絡，然後將VGG features avg，這樣特徵如果不明顯的話就可能在avg後直接消失了，這種影響還是很大的。我估計最後可能會完全趨於白

2020-02-20 23:44:55

嗨，Dear，我是小明哥，上面幾篇博文都是關於圖像的【嚴格說是這樣，但我用來近似視頻，雖然有點不合理，但現在似乎沒有提取視頻features的經典方法】那麼現在我用於聲音場景分類也是可行的。 1-npz格式數據是字典，可以通過key來取值

2020-02-20 23:44:55

哈嘍，我是菜鳥小明哥。今天遇到個問題，其實這個問題存在已久了，就是簡單的人臉驗證，1:1識別，我覺得這是個基本問題，應用場景廣泛，如果這個都沒有做過，豈不是很笨，很尷尬。所以今天還是用現有的庫做一下。 1-人臉檢測這個可能是必備的，d

2020-02-20 23:44:54

由上面兩篇關於L2-norm的博文說開來，那就必然會扯到keras中的keras.layers.BatchNormalization，這個玩意是啥作用呢？ keras.layers.BatchNormalization github源碼

2020-02-20 23:44:54

>>> import pyyaml Traceback (most recent call last): File "<pyshell#170>", line 1, in <module> import pyyaml Mod

2020-02-20 23:44:54

哈嘍，今天週六啦。不知道有多少妹子想我呢。哈哈。言歸正傳。這個問題源於菜鳥思維。數據集X shape （1000,64）的整體進行PCA與分成兩部分或多部分是否結果相同？？爲何不同？差別大不大？爲何？依舊以MNIST數據集爲例進行探

2020-02-20 23:44:54

接上一篇：https://blog.csdn.net/SPESEG/article/details/103875916 用的抖音的視頻數據，測試找來的我司視頻，看看效果如何。策略：隨機抽幀20~40幀，堆疊所有幀，按照index選幀，然

2020-02-20 23:44:54

前情提要：第一篇，第二篇參考BN的paper可以獲知：爲了加快含BN層網絡的模型訓練，可以做作者已然說明，僅僅將BN層用於一個網絡並不會出現作者方法所有的優勢，下面的操作可能會改善效果 1.增大學習率； 2.去掉Dropout，BN和

2020-02-20 23:44:54

其實上面的l2 norm也可看做是一種feature scaling，更詳細的特徵尺度化詳見這個博文。點贊 1 收藏分享文章舉報 SpeechImageKing 發佈

2020-02-20 23:44:54

哈嘍，大家好，我是人見人愛，花見花開的小明哥。視頻內容的理解並不容易，語義在人看來是很容易做到的，而網絡沒有人腦那麼大的容量，肯定比不上人。之前提取的視頻特徵其實說實話是圖像特徵，我之前也有提到，並沒有動作的識別或理解。

2020-02-20 23:44:54

這個問題其實不是需要改那個關鍵字參數/形參，而是數據有問題。如果你真的想改的話，給你參考。 np.load('./vfdsgv.npy'),allow_pickle=True) 點贊 1 收藏分享

2020-02-20 23:44:54

老子安裝librosa後出現這個warning，真是夠了，啥玩意。雖是警告，但看起來不順眼，不舒服，想去掉。完整錯誤如下： UserWarning: PySoundFile failed. Trying audioread inste

2020-02-20 23:44:54

目前似乎沒有不同維度的數據的相似度，只能通過一些方法來做，下面是我的嘗試，僅供參考。考慮到人臉識別及驗證中其實不同圖像人臉也不一樣大，是如何做的識別？？這個是有圖像的resize存在，然後經過模型得到特徵進行相似度對比。因此是否可以

2020-02-20 23:44:54

哈嘍大家好，上面幾篇做法是提取的對數mel譜然後用VGG做embedding特徵，是否靠譜不得而知，但效果很差是明顯的，寡人猜測原因：1.VGG訓練的數據很短，很乾淨，沒有其他雜音；2.其他細節問題，比如參數的微調；3.其他特徵？？很多

2020-02-20 23:44:54

接上一篇：這次與LDA進行對比，看下效果如何。 1用sklearn產生的隨機10個類別數據初始特徵爲30個，由於下面條件限制，只能設置小於9的數，因此選擇了8 n_components <= min(n_features, n_c

2020-02-20 23:44:54