python處理大訓練集過程中遇到的Memory Error問題解決

原創

2020-06-20 01:07

python處理大數據集時容易出現內存錯誤也就是內存不夠用。

1. python原始的數據類型佔用空間比較大，且沒有太多的選擇，默認一般好像是24字節，但是實際有時候不需要這麼大或這麼高精度，這時候可以使用numpy中的float32， float16等，總之根據自己的需要選夠用就行，這就是好幾倍的內存節省。

2. python的垃圾回收機制比較懶惰，有時候在一個for循環中的變量用完不會回收，下次重新初始化的時候又重新開闢了空間，這時候可以手動del這個變量，del x，然後import gc, 然後手動gc.collect()

3. 在數據是稀疏的情況下，如訓練集中大量one hot特徵，此時把dense的數據轉成sparse的存儲方式，可以參考scipy裏面的sparse模塊，裏面有多種支持sparse存儲的數據結構可以直接調用。但是注意裏面的集中數據結構至少都需要dense數據2-3倍的空間來存儲，也就是說，如果你的數組中，sparse的只有一半甚至更少，那使用sparse結構只會佔用更多的空間。只有在數據中大量都是稀疏的情況下才能用。

4. 本質上還是檢查自己組織數據的方式是否有問題，比如是不是可以在每個batch中one hot,總之就是不要把各種需要和不需要的所有東西一次性存到內存中。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

機器學習--Logistic Regression(scikit-learn_ 預測疝氣病症病馬死亡率問題)

據說，心情不好的時候，整理東西可以讓好心情迴歸，那麼同理，懶散得想要沉淪時候，總結知識可以召回學習的神龍。學習回顧：認識sklearn：scikit-learn，Python庫之一，Scipy（Scientific Pyt

2020-07-07 03:34:08

Detectron2源碼分析- demo-對象檢測

python demo/demo.py --config-file configs/COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x.yaml --input 001.jpg –out

维民所止1226

2020-07-07 00:30:30

條件隨機場CRF(Conditional Random Field)

⼀個重要的要求是，我們保留了推斷的⾼效算法，它與鏈的長度是線性關係。例如，這要求，在給定觀測的條件下，表⽰的後驗概率分佈的量在與轉移概率和發射概率相乘然後在上求和或積分之後，我們得到的上的概率分佈與上的概率分佈具有相同的函數

2020-07-06 21:30:11

lightgbm(gpu)在linux(centos7)安裝

#保證gpu是正常可用的： nvidia-smi nvcc -V #進入root權限，且python環境爲你正常使用環境，比如anaconda3，而不是python2.7 #依賴：sudo apt-get install --n

2020-07-06 10:25:20

極簡單Ubntu18.10安裝TF,Keras,PyTorch (cpu版)以及jupyter notebook並配置遠程訪問小記

1.安裝Anaconda Anaconda安裝基本大家都會很容易，直接在ubantu中打開瀏覽器在官網下載對應系統版本的.sh文件即可。然後使用sh命令安裝。 sudo sh /home/file_name/Ana

2020-07-05 16:20:01

彩票理論

神經網絡壓縮是人工智能落地過程中重要的一個環節。關於網絡壓縮的理論之前就已經有很多，比如，模型蒸餾，剪枝，量化，低秩矩陣近似等。彩票理論算是個令人耳目一新的觀點，值得看看。摘要：神經網絡修剪技術可以將訓練有素的網絡的參數數量減少90％

2020-07-05 08:54:49

實際使用中的神經網絡壓縮

引起這篇綜述的緣由是論文《Neural Network Distiller: A Python Package ForDNN Compression Research》，這種實用工具會使我對這一充滿希望的方向充值一點希望。除了Distil

2020-07-05 08:54:49

《機器學習原理算法應用》筆記

文章目錄簡介數學基礎算法基礎貝葉斯分類器決策樹k近鄰數據降維線性判別分析人工神經網絡支持向量機線性模型隨機森林Boosting深度學習卷積神經網絡循環神經網絡生成對抗網絡聚類半監督學習隱馬爾可夫模型條件隨機場強化學習工程實現相關

2020-07-04 07:32:17

完美解決 Spark：java.net.URISyntaxException: Relative path in absolute URI: file:D:/XXX/

windows下使用intellij 開發 spark mllib 程序發現如下錯誤。 var spark=SparkSession.builder().master("local").appName("test").getOrCre

2020-07-03 20:58:58

機器學習2018-12-28

機器學習組成主要任務分類（classification）：將實例數據劃分到合適的類別中。應用實例：判斷網站是否被黑客入侵（二分類），手寫數字的自動識別（多分類）迴歸（regression）：主要用於預測數值型數據應用實

2020-07-03 14:03:40

推薦系統常用評估指標對比

制定評估指標是數據挖掘前期很重要的一步，一個好的評估指標要和關心的業務指標波動一致。這樣可以通過對比不同模型的評估指標，來評價模型在實際業務中的效果，加快模型迭代週期，降低線上成本。在推薦系統中評估指標可以分爲三類：分類指標，迴

2020-07-03 11:44:06

單變量線性迴歸實現波士頓房價預測

1、預測過程（1）、波士頓地區房價數據獲取，數據來自於sklearn自帶數據集；（2）、波士頓地區房價數據分割；（3）、訓練與測試數據標準化處理；（4）、使用最簡單的線性迴歸模型LinearRegression對房價進行預測。 2

2020-07-03 04:26:27

SVM算法檢測XSS注入

目錄 XSS注入檢測 GitHub地址: https://github.com/ielcome2017/xss.git 1. 項目結構 2. 過程 3. 結果 4. 使用 GitHub地址: https://github.com/iel

2020-07-03 00:16:57

Keras強化學習——FlappyBird

github地址：https://github.com/ielcome2017/FlappyBird.git 代碼數據生成 import numpy as np import sys import cv2 import ra

2020-07-03 00:16:46

理解Theano的Scan函數

1 Scan是幹什麼的函數scan是Theano中迭代的一般形式，所以可以用於類似循環(looping)的場景。如果你熟悉Reduction和map兩個函數，這兩個都是scan的特殊形式，即將某函數依次作用一個序列的每個元素

2020-07-02 22:57:02

24小時熱門文章

最新文章

最新評論文章