原创 小點dian兒:pandas混淆矩陣

import pandas as pd  pd.crosstab(y_Test,prediction, rownames=["lable"],colnames=["predict"]) y_Test,真實值 prediction,預測值

原创 python 刪除文件首行或指定行

網上的大多數答案也是,讀入,寫入的過程,總結如下 Python Fileinput 模塊介紹(轉) 作者博文地址:https://www.cnblogs.com/liu-shuai/p/6098302.html fileinput模塊提供

原创 python work2vec詞向量應用方法彙總

目錄 前期工作可參閱: work2vec詞向量應用匯總(詞語相似度、集合相似度、詞向量計算等) 1.獲取每個詞的詞向量 2支持詞語的加減運算。(實際中可能只有少數例子比較符合) 3計算兩個詞之間的餘弦距離 4計算餘弦距離最接近“word”

原创 python訓練work2vec詞向量實例(python gensim)

前期工作可參閱: 1.python work2vec詞向量訓練可參考 https://blog.csdn.net/shuihupo/article/details/85156544詞向量訓練 2.word2vec詞向量中文語料處理(pyt

原创 python 訓練work2vec詞向量(python gensim)

目錄 看了很多文章,對與word2vec語料的處理沒有那麼清晰,現在寫下自己處理流程,方便入手的小夥伴,望大家使用的過程中,少走彎路。 訓練語料格式 模型訓練 1.安裝gensim 2.模型訓練 3.模型訓練保存與加載1(模型可繼續訓練)

原创 word2vec詞向量中文語料處理(python gensim word2vec總結)

目錄 中文語料處理 法一:語料處理爲列表 法二:語料是文件(處理爲迭代器) 對一個目錄下的所有文件生效(法1)  對一個目錄下的所有文件生效(法2) class : gensim.models.word2vec.PathLineSente

原创 python 第三方包的安裝位置

鍵盤 win +R調出 cmd 在cmd中輸入一個已經安裝過的包的命令,它就會顯示安裝的位置。比如  pip install pandas  它就顯示你的安裝包目錄了。  手動安裝第三方詳見教程python 安裝.whl、egg、zip

原创 python小點dian兒:去除txt/json重複行

目錄 去除重複行(法一:利用內置set) 去除重複行(法二:建造list或set檢查是否已存在) 按行寫入json/txt文件 查看文件行數長度 factfile_path  爲json文件 casefile_path 爲txt文件 去除

原创 python json

json.load(filename) json.loadds(string)

原创 python讀取文件 \ufeff 問題

df_ID= pd.read_csv(IDfile_path,encoding= 'utf-8',sep = ',',header=None) ID_list= list(df_ID.ix[:,0]) print

原创 Python 學習—小點dian兒,sort疑問大全

遇到了就刨根問題,補補python基礎吧。 數據會清理,特徵會派生,模型會跑,參數能調,但始終還是有漏洞,或者術語不可名狀。 python 去重,並保持列表原來順序list_a = ['cc', 'bbb', 'dda','bbbb',