原创 CS224n(2019):Assignment2 參考答案

CS224n : Assignment2 參考答案 本文爲cs224n課程(winter,2019)的 assignment2 中的公式推導部分參考答案。如有疑問或者錯誤之處,歡迎交流。 Assignment2 原文 Assi

原创 linux系統 三步解決matplotlib圖片中文顯示問題

網上很多類似的教程,今天親測了一種相對比較簡單的。記錄一哈。 第一步,下載字體文件 網上有很多字體可以下載, 我使用的是這個下載地址。 下載之後,解壓縮,裏面的 ttf 後綴文件就是我們需要的字體文件。 我把這個文件重命名爲英文了

原创 Leetcode-695.最大島嶼面積(DFS 與 BFS 解法,python3)

題目描述 給定一個包含了一些 0 和 1 的非空二維數組 grid 。 一個 島嶼 是由一些相鄰的 1 (代表土地) 構成的組合,這裏的「相鄰」要求兩個 1 必須在水平或者豎直方向上相鄰。你可以假設 grid 的四個邊緣都被 0(

原创 從零開始實現核密度估計(kernel density estimation,KDE)-python實現

問題背景 核密度估計(kernel density estimation)是在概率論中用來估計未知的密度函數,屬於非參數檢驗方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parz

原创 linux磁盤掛載教程

以下的磁盤掛載方案,親測可用。 通過 fdisk -l 命令可以查看當前服務器上的硬盤配置。 Disk /dev/sdb: 3.7 TiB, 4000787030016 bytes, 7814037168 sectors Unit

原创 pytorch、tensorflow-多gpu顯存使用問題(解決gpu 0 顯存佔滿時 使用其他gpu 報錯 out of memory問題)

問題情景: 服務器上有兩個gpu,編號爲0的gpu在跑任務,顯存完全佔滿。gpu 1 空閒。在想用gpu 1 跑任務時,報錯 CUDA:out of memory. 此時已經設置了 device = torch.device(“

原创 pytorch(1.1.0) StepLR 中 get_lr()方法的一個bug

pytorch中的StepLR實現時有一個小細節: 舉例: 設置step_size=5,gamma=0.1時, 記初始學習率爲lr, 實際上每次在第五個epoch學習率會先衰減爲 lr * (gamma^2), 然後下一個epoc

原创 xgboost 與 lightgbm 多分類 與 多標籤 任務 python代碼實例

xgboost 與 lightgbm 官方均支持多分類任務,但不直接支持多標籤分類任務,實現多標籤任務的方法之一是結合sklearn 提供的 multiclass 子類,如OneVsRestClassifier。 下面分別給出

原创 python Pandas DataFrame 取單行數據保持dataframe格式的方法

python pandas的一個使用技巧。 Pandas DataFrame 直接取一行數據會得到Series, 如果想讓結果保持原dataframe格式,在索引外加 [] 即可。 示例如下: import pandas as p

原创 sklearn 使用軟標籤進行多標籤、多分類訓練的一種實現方法

目標場景 Multilabel classifcation in sklearn with soft (fuzzy) labels。 在sklearn中,使用軟標籤(one-hot標籤:(1,0,0),軟標籤:(0.8,0.2,0

原创 用於關係提取的基於注意力機制的雙向LSTM網絡[ACL 2016]

論文題目: Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 論文出處: ACL2016 論文地址:

原创 python 使用pandas 讀取較大csv文件的加速技巧

問題背景 基於python將較大的文本文件讀取爲dataframe時(文本文件可能是csv或者xlsx類型)。直接用pandas對整個文件進行讀取的話,會比較耗時。 這裏提供一個簡單的加速方案:分批讀取。 實現方案 需要首先將文件

原创 git credential.helper 爲不同的項目目錄分別儲存用戶名和密碼

問題背景: git 項目 只能使用http方式連接 (比如:公司的gitlab不支持ssh方式。), 不想每次都輸入用戶名和密碼。基於credential.helper (憑證助手)store模式可以 在文件中永久存儲用戶名和密碼

原创 pytorch使用教程-基於自定義 Dataloader中的collate_fn 函數 實現變長數據處理

問題背景 想要使用pytorch 框架中的 Dataset 和 Dataloader 類,將變長序列整合爲batch數據 (主要是對長短不一的序列進行補齊),通過自定義collate_fn函數,實現對變長數據的處理。 主要思路 D

原创 程序員必備:徹底弄懂常見的7種中文字符編碼(推薦閱讀,寫的十分清晰易懂)

作爲一名NLPer,文件編碼/解碼是我們經常要面對的問題~ 牆裂推薦大家閱讀一下騰訊出品的這篇文章,寫的十分清晰易懂~ 傳送門