原创 saved_model_cli查看SavedModel

以模型 bert_en_uncased_L-12_H-768_A-12/1 爲例,頁面底部有下載按鈕,下載到本地並解壓後,可以使用saved_model_cli來查看模型的細節。只要安裝了tensorflow,就可以使用saved

原创 使用class weight和sample weight處理不平衡問題

class weight:對訓練集裏的每個類別加一個權重。如果該類別的樣本數多,那麼它的權重就低,反之則權重就高. sample weight:對每個樣本加權重,思路和類別權重類似,即樣本數多的類別樣本權重低,反之樣本權重高[1]

原创 Transformers源碼閱讀——BertModel

BertModel類的源碼:Transformers項目的modeling_bert.py的BertModel類 畫出結構圖如下:

原创 nvcc --version與cat查看version.txt版本不一樣

參考: https://stackoverflow.com/questions/40517083/multiple-cuda-versions-on-machine-nvcc-v-confusion 現象 nvcc --versi

原创 pytorch修改Dataparallel的主gpu

背景 pytorch使用Dataparallel時會出現負載不均衡的現象,一般來說0號gpu佔用顯存最多。但是,有時候0號gpu顯存不是特別多了,但是其他gpu顯存很多,更適合用來作爲主gpu。所以我們得想辦法指定其他gpu爲主g

原创 深度學習中的batch的大小對學習效果有何影響?

推薦閱讀: [1] 深度學習中的batch的大小對學習效果有何影響? - 言有三的回答 - 知乎 [2] 深度學習中的batch的大小對學習效果有何影響? - 程引的回答 - 知乎 [3] batch size 越大,學習率也要越

原创 DFS與回溯總結

文章目錄地圖類LC200. Number of IslandsLC79. Word Search 學習與參考資料: [1] 2013王道論壇計算機考研機試指南 [2] DFS和BFS講解及Leetcode刷題小結(1)(JAVA)

原创 筆試面試——滑動窗口解決子串問題

推薦閱讀:算法思維繫列/滑動窗口技巧. LC76. Minimum Window Substring from collections import defaultdict class Solution: def mi

原创 筆試——快速冪取模

阿里巴巴2021暑期實習筆試題,題目本身需要經過數學推導,得到答案的表達式爲 (n×2n−1)%(109+7)(n\times 2^{n-1}) \% (10^9+7)(n×2n−1)%(109+7) ,其中 nnn 是輸入的一

原创 python多key排序

首先需要知道,python 對 tuple 的排序規則就是多key排序,對於一個三元組的list用默認的sorted,結果是先按照第一個字段升序,在第一個字段相同的情況下按照第二個字段升序,在前兩個字段都相同的情況下按照第三個字段

原创 單調棧的題目(待總結)

題目鏈接:騰訊2020校園招聘編程題——逛街 https://blog.csdn.net/lucky52529/article/details/89155694 https://www.cnblogs.com/1024th/p/1

原创 Seq2Seq中的Exposure Bias現象的原因以及解決辦法

文章目錄參考資料原因解決辦法Scheduled SamplingSentence Level Oracle Word + Gumbel Noise對抗訓練基於強化學習直接優化BLEU 參考資料 本文是下列資料的總結: [1] 李宏

原创 numpy.triu()和numpy.tril()

triu():返回上三角(Upper triangle)。用k 指定對角線,主對角線爲k=0,右上的對角線用k>0,左下的對角線用k<0,返回包括該對角線的上三角。 tril():返回下三角(Lower triangle)。用k

原创 Bi-LSTM+CRF理解

學習資料: [1] 基於BiLSTM-CRF模型的序列標註(Tensorflow) [2] 最通俗易懂的BiLSTM-CRF模型中的CRF層介紹 [3] CRF Layer on the Top of BiLSTM - 5 \q

原创 hierarchical softmax對生僻詞很不友好?扯淡!

[1] https://code.google.com/archive/p/word2vec/ [2] Word2Vec原始論文 [3] Why is hierarchical softmax better for infreq