《达观杯》学习第二天(代码学习及其分析)

(一)

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

1.导入pandas 包

2.CountVectorizer 是对对文本特征进行分析。

这个网址是LogisticRegression - 参数说明,用哪个参数看哪个参数  

https://blog.csdn.net/jark_/article/details/78342644     【1】

logisticRegression 逻辑回归 https://www.cnblogs.com/weiququ/p/8085964.html

还有正则化https://www.cnblogs.com/jianxinzhou/p/4083921.html

 

---------------------------------------------------------------------------------------------------------------------------

(二)

pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改

​ inplace = True:不创建新的对象,直接对原始对象进行修改;

​ inplace = False:对数据进行修改,创建并返回新的对象承载其修改结果。

默认是False,即创建新的对象进行修改,原对象不变,和深复制和浅复制有些类似。

 axis 就是指的是列,给其赋值就是有选择的进行删除列的操作

pint(df.drop(['one'],axis=1))

print(df.drop(['a','c'],axis = 0))

----------------------------------------------------------------------------------------------------------------------------------------------------

(三)关键词权值计算算法

TF 和TF-idf是最常见的两个文本特征。

tf-idf(term frequency-inverse document frequency)用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用于

评估 某一个字词对于某一文件集或一个语料库中的某一份文件的重要程度。字词的重要性与其在 文件中出现的次数成正比,但与其在语料库中出现的频率成反比。

中心思想:

如果某个词或短语在一篇文章中出现的频率高(即TF高),并且在其他文章中很少出现(即IDF高),则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF(Term Frequency,词频)表示一个给定词语t在一篇给定文档d中出现的频率。TF越高,则词语t对文档d来说越重要,TF越低,则词语t对文档d来说越不重要。那是否可以以TF作为文本相似度评价标准呢?答案是不行的,举个例子,常用的中文词语如“我”,“了”,“是”等,在给定的一篇中文文档中出现的频率是很高的,但这些中文词几乎在每篇文档中都具有非常高的词频,如果以TF作为文本相似度评价标准,那么几乎每篇文档都能被命中。

IDF(Inverse Document Frequency,逆向文件频率)的主要思想是:如果包含词语t的文档越少,则IDF越大,说明词语t在整个文档集层面上具有很好的类别区分能力。IDF说明了什么问题呢?还是举个例子,常用的中文词语如“我”,“了”,“是”等在每篇文档中几乎具有非常高的词频,那么对于整个文档集而言,这些词都是不重要的。对于整个文档集而言,评价词语重要性的标准就是IDF。
(TF对于某一字词在一片文章中出现频率,由此反映在此文章中的重要性,而IDF是看这个字词在整个文档集中出现的频率,如果几乎每篇文章都会出现,该字词在整个文档集中 没那么重要。)

(四)Python:sklearn数据预处理中fit(),transform()与fit_transform()的区别

https://blog.csdn.net/anshuai_aw1/article/details/82498374

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章