台部落pyxiea

以模型 bert_en_uncased_L-12_H-768_A-12/1 爲例，頁面底部有下載按鈕，下載到本地並解壓後，可以使用saved_model_cli來查看模型的細節。只要安裝了tensorflow，就可以使用saved

2020-06-21 08:02:25

class weight：對訓練集裏的每個類別加一個權重。如果該類別的樣本數多，那麼它的權重就低，反之則權重就高. sample weight：對每個樣本加權重，思路和類別權重類似，即樣本數多的類別樣本權重低，反之樣本權重高[1]

2020-06-21 08:02:25

BertModel類的源碼：Transformers項目的modeling_bert.py的BertModel類畫出結構圖如下：

2020-06-21 08:02:25

參考： https://stackoverflow.com/questions/40517083/multiple-cuda-versions-on-machine-nvcc-v-confusion 現象 nvcc --versi

2020-06-21 08:02:25

背景 pytorch使用Dataparallel時會出現負載不均衡的現象，一般來說0號gpu佔用顯存最多。但是，有時候0號gpu顯存不是特別多了，但是其他gpu顯存很多，更適合用來作爲主gpu。所以我們得想辦法指定其他gpu爲主g

2020-05-24 11:24:42

推薦閱讀： [1] 深度學習中的batch的大小對學習效果有何影響？ - 言有三的回答 - 知乎 [2] 深度學習中的batch的大小對學習效果有何影響？ - 程引的回答 - 知乎 [3] batch size 越大，學習率也要越

2020-05-14 17:44:03

文章目錄地圖類LC200. Number of IslandsLC79. Word Search 學習與參考資料： [1] 2013王道論壇計算機考研機試指南 [2] DFS和BFS講解及Leetcode刷題小結（1）（JAVA）

2020-05-02 15:42:39

推薦閱讀：算法思維繫列/滑動窗口技巧. LC76. Minimum Window Substring from collections import defaultdict class Solution: def mi

2020-04-28 14:46:24

阿里巴巴2021暑期實習筆試題，題目本身需要經過數學推導，得到答案的表達式爲 (n×2n−1)%(109+7)(n\times 2^{n-1}) \% (10^9+7)(n×2n−1)%(109+7) ，其中 nnn 是輸入的一

2020-04-05 22:15:26

首先需要知道，python 對 tuple 的排序規則就是多key排序，對於一個三元組的list用默認的sorted，結果是先按照第一個字段升序，在第一個字段相同的情況下按照第二個字段升序，在前兩個字段都相同的情況下按照第三個字段

2020-03-30 17:31:18

題目鏈接：騰訊2020校園招聘編程題——逛街 https://blog.csdn.net/lucky52529/article/details/89155694 https://www.cnblogs.com/1024th/p/1

2020-03-18 21:17:13

文章目錄參考資料原因解決辦法Scheduled SamplingSentence Level Oracle Word + Gumbel Noise對抗訓練基於強化學習直接優化BLEU 參考資料本文是下列資料的總結： [1] 李宏

2020-03-13 23:55:33

triu()：返回上三角（Upper triangle）。用k 指定對角線，主對角線爲k=0，右上的對角線用k>0，左下的對角線用k<0，返回包括該對角線的上三角。 tril()：返回下三角（Lower triangle）。用k

2020-03-13 23:55:33

學習資料： [1] 基於BiLSTM-CRF模型的序列標註（Tensorflow） [2] 最通俗易懂的BiLSTM-CRF模型中的CRF層介紹 [3] CRF Layer on the Top of BiLSTM - 5 \q

2020-03-12 20:22:02

[1] https://code.google.com/archive/p/word2vec/ [2] Word2Vec原始論文 [3] Why is hierarchical softmax better for infreq

2020-03-12 20:22:02