原创 sklearn LinearReggression

sklearn linear_model:線性模塊 一、LinearReggression 1、調用方法 class sklearn.linear_model.LinearRegression(fit_intercept=True

原创 centos端口

centos 防火牆開啓 默認只開放22端口 假設port = 8888 查詢指定端口是否開放:sudo firewall-cmd --query-port=8888/tcp 開啓指定端口: sudo firewall-cmd -

原创 服務器算力測試

文本分類的項目,有個需求是測服務器算力,最終填寫表格如下: 需要測試的是一秒能跑多少詞,多少條文本,以及每個詞和文本佔用的內存和顯存。 測試方式:去除模型加載等不需要的時間,採取逐步加數據量的方式,通過差值計算。 一、測試運

原创 sklearn DecisionTree tree_

Sklearn API - Understanding the decision tree structure Array-based representation of a binary decision tree. Th

原创 Sklearn 數據預處理與特徵工程 preprocessing&impute

數據預處理:目的是爲了提高數據質量,使數據挖掘的過程更加有效,更加容易,同時也提高挖掘結果的質量。數據預處理的對象主要是清理其中的噪聲數據、空缺數據和不一致數據。 特徵工程:降低計算成本、提升模型上限 模塊 prepro

原创 《A Deep Reinforced Sequence-to-Set Model for Multi-Label Text Classification》泛讀 (2019 ACL)

Brief description 基於對模型SGM(Seq2Seq)的改進。[發表於COLING2018] 在SGM的基礎上加了一個Set decoder,利用set的無序性,降低錯誤的標籤排序帶來的影響。(對於作者在Sequ

原创 《Learning Structured Representation for Text Classification via Reinforcement Learning》閱讀筆記

Abstract Introduction Methodology Examples 一、Abstract Unlike most existing representation models that either u

原创 Pytorch 單機多GPU運行

一、單機單GPU 1、set current device (gpu id) # the first methord CUDA_VISIBLE_DEVICES=gpi_id python XXX.py # the second

原创 2019.05.09 每日工作總結

主要任務:達觀杯 一、所遇問題 1、csv文件過大,讀取報錯: _csv.Error: field larger than field limit (131072) 解決方案: import sys import csv csv.

原创 Seq2Seq Attention模型

首先強調一下圖文來源,真正的完全圖解Seq2Seq Attention模型。本人目前用到此模型,發現該知乎作者的文章寫得通俗易懂,於是整理作爲自己的筆記。如果小夥伴對模型中各種隱層狀態感到不解,請看我之前的一篇博文,RNN、LSTM神

原创 RNN、LSTM神經網絡輸入輸出究竟是怎樣的?

原本以爲自己懂的,可是看着看着論文,就越來越不知道Recurrent NNs(這裏不區分LSTM,GRU)的輸入輸出到底是怎麼樣的。所以,查閱多篇資料,整合如下,希望能幫到大家。 首先,用「動圖」和「舉例子」講講 RNN(裏面的動圖非

原创 CS224n Assignment 1(1.1-1.2)

具體推倒公式及代碼參考鏈接: My solution to cs224n assignment1(1-2) CS224n-作業1 1. q1_softmax.py 在代碼實現過程中,不可以直接套用公式。 例如,對於x = [[100

原创 CS224n學習筆記1

CS224n學習筆記 Lecture 2: Word Vector 參考鏈接:Word2Vec Tutorial - The Skip-Gram Model [NLP] 秒懂詞向量Word2vec的本質 CS224n筆記2 詞的向