《達觀杯》學習第二天(代碼學習及其分析)

(一)

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

1.導入pandas 包

2.CountVectorizer 是對對文本特徵進行分析。

這個網址是LogisticRegression - 參數說明,用哪個參數看哪個參數  

https://blog.csdn.net/jark_/article/details/78342644     【1】

logisticRegression 邏輯迴歸 https://www.cnblogs.com/weiququ/p/8085964.html

還有正則化https://www.cnblogs.com/jianxinzhou/p/4083921.html

 

---------------------------------------------------------------------------------------------------------------------------

(二)

pandas 中 inplace 參數在很多函數中都會有,它的作用是:是否在原對象基礎上進行修改

​ inplace = True:不創建新的對象,直接對原始對象進行修改;

​ inplace = False:對數據進行修改,創建並返回新的對象承載其修改結果。

默認是False,即創建新的對象進行修改,原對象不變,和深複製和淺複製有些類似。

 axis 就是指的是列,給其賦值就是有選擇的進行刪除列的操作

pint(df.drop(['one'],axis=1))

print(df.drop(['a','c'],axis = 0))

----------------------------------------------------------------------------------------------------------------------------------------------------

(三)關鍵詞權值計算算法

TF 和TF-idf是最常見的兩個文本特徵。

tf-idf(term frequency-inverse document frequency)用於資訊檢索與文本挖掘的常用加權技術。TF-IDF是一種統計方法,用於

評估 某一個字詞對於某一文件集或一個語料庫中的某一份文件的重要程度。字詞的重要性與其在 文件中出現的次數成正比,但與其在語料庫中出現的頻率成反比。

中心思想:

如果某個詞或短語在一篇文章中出現的頻率高(即TF高),並且在其他文章中很少出現(即IDF高),則認爲此詞或者短語具有很好的類別區分能力,適合用來分類。

TF(Term Frequency,詞頻)表示一個給定詞語t在一篇給定文檔d中出現的頻率。TF越高,則詞語t對文檔d來說越重要,TF越低,則詞語t對文檔d來說越不重要。那是否可以以TF作爲文本相似度評價標準呢?答案是不行的,舉個例子,常用的中文詞語如“我”,“了”,“是”等,在給定的一篇中文文檔中出現的頻率是很高的,但這些中文詞幾乎在每篇文檔中都具有非常高的詞頻,如果以TF作爲文本相似度評價標準,那麼幾乎每篇文檔都能被命中。

IDF(Inverse Document Frequency,逆向文件頻率)的主要思想是:如果包含詞語t的文檔越少,則IDF越大,說明詞語t在整個文檔集層面上具有很好的類別區分能力。IDF說明了什麼問題呢?還是舉個例子,常用的中文詞語如“我”,“了”,“是”等在每篇文檔中幾乎具有非常高的詞頻,那麼對於整個文檔集而言,這些詞都是不重要的。對於整個文檔集而言,評價詞語重要性的標準就是IDF。
(TF對於某一字詞在一片文章中出現頻率,由此反映在此文章中的重要性,而IDF是看這個字詞在整個文檔集中出現的頻率,如果幾乎每篇文章都會出現,該字詞在整個文檔集中 沒那麼重要。)

(四)Python:sklearn數據預處理中fit(),transform()與fit_transform()的區別

https://blog.csdn.net/anshuai_aw1/article/details/82498374

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章