原创 顯存不夠,如何訓練大型神經網絡

之前寫過一篇PyTorch節省顯存的文章,在此基礎上進行補充 老博文傳送門 本篇參考自夕小瑤的賣萌屋公衆號 一、單卡加載大型網絡 1.1 梯度累加Gradient Accumulation 單卡加載大型網絡,一般受限於大量的網

原创 TorchText實踐總結

TorchText詳細介紹1傳送門 TorchText入門教程,輕鬆玩轉文本處理傳送門 from torchtext.data import Field,TabularDataset,Iterator,BucketIterator ''

原创 N-gram 新詞發現總結

jieba與N-gram結合進行新詞發現 使用jieba作爲基礎分詞組件 針對新的文本,利用信息熵進行新詞發現 使用字典樹存儲單詞和統計詞頻 取TopN作爲新詞 此方法主要依託互信息和左右信息熵 互信息表示的是兩個詞的凝聚力,或者說是兩個

原创 Python 求二叉樹路徑總和

題目來源: LeetCode113 路徑總和 給定一個二叉樹和一個目標和,找到所有從根節點到葉子節點路徑總和等於給定目標和的路徑。 說明: 葉子節點是指沒有子節點的節點。 5 /

原创 java 讀取PDF目錄、對應頁碼

import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOExcepti

原创 深度學習之Embedding

在深度學習模型中,Embedding層在代碼層面上的意義是:一個保存了固定字典和大小的簡單查找表。這個模塊常用來保存詞嵌入和用下標檢索它們。模塊的輸入是一個下標的列表,輸出是對應的詞嵌入。 當輸入是一個batch時,則這個輸入矩陣是一個N

原创 sklearn 繪製多分類ROC曲線

from rasa_nlu.model import Interpreter from sklearn.metrics import precision_score from sklearn.metrics import recall_

原创 pandas matplotlib繪圖

指定橫縱座標繪圖 import pandas as pd import matplotlib.pyplot as plt users = pd.read_excel('Users.xlsx') users['Total'] = use

原创 python json

json.load:把文件打開,並把字符串變換爲數據類型 with open(p,'r') as f: data = json.load(f,ensure_ascii= False) dump:

原创 自然語言處理特徵處理器

學習自張俊林大佬的知乎https://zhuanlan.zhihu.com/p/54743941 想整理下NLP任務中特徵提取的發展脈絡流程,整理了下張大神的博客。 RNN 特徵提取方案:在輸入的線性序列中,從前向後傳播收集輸入信息 存在

原创 數據傾斜

數據傾斜的原因: 數據傾斜與業務邏輯和數據量有關 在MapReduce程序中,數據傾斜主要發生在某個key的數據量較大,此key分散到某個reduce造成reduce階段的緩慢甚至卡頓。 在Spark程序中,同一個Stage的不同Part

原创 深度學習基礎

深度學習 反向傳播的作用: 梯度下降法中需要利用損失函數對所有參數的梯度來尋找局部最小點; 反向傳播是用於計算梯度的具體方法,本質是利用鏈式法則對每個參數求偏導 激活函數 使用激活函數的目的是爲了向網絡中加入非線性隱藏層;加強網絡的表達能

原创 python3 讀取docx 並剔除中文全角符號

import docx import re from docx import Document import string path = '/Users/ya/Desktop/11246441.docx' document = Doc

原创 python 小知識集錦

list中extend和append的區別: 1. append() 方法向列表的尾部添加一個新的元素。只接受一個參數。  2. extend()方法只接受一個列表作爲參數,並將該參數的每個元素都添加到原有的列表中。 Zip()和Zip(

原创 pandas 操作小技巧彙編

不定時更新工作中遇到的小trick DataFrame.tocsv() 輸出的colume最前面多了一個逗號 解決辦法:設置index=False即可 train_data[['qid','title_char']].to_csv(