原创 吳恩達機器學習筆記(week1——week5)

Week1    轉自該大神~~~~~ http://scruel.gitee.io/ml-andrewng-notes/week1.html      一、 引言(Introduction) 1.1 歡迎 1.2 機器學習是什麼? 1.

原创 python對列表中的元素進行去重操作

1.案例要求: """ 有列表:["a","a","a","b","b","c","d","d","f"], 要求去除重複的列表數據,達到效果["a","b","c","d","f"] """ 2.案例分析: (1)集合可以去重,列表轉

原创 python將csv文件轉化成txt

import pandas as pd import os data = pd.read_csv('news_data.csv', encoding='utf-8') with open('news_data.txt','a+',

原创 wps三線框

1、打開WPS文字,新建一個文檔。然後點擊工具欄中的“插入”,再點擊“表格”右邊的小箭頭,再點擊“插入表格”,並根據自己的需要設置表格列數、行數。 2、選中所有的表格,點擊工具欄中的“表格樣式”,再點擊“邊框”選擇“無邊框“,並把線粗細

原创 wps中將文檔的下一節與本節頁眉頁腳改爲不同的方法

1、啓動wps文檔,定位本頁的最後,頁面佈局功能區→分隔符→下一頁分節符; 2、定位到下一頁的頁腳,鼠標雙擊,功能區顯示頁眉和頁腳,將同前節取消(也就是說當前頁與前一頁設置不一樣),插入頁碼根據實際需求將應用範圍爲本頁或本頁及之後,勾選

原创 分詞用結吧分詞器原因

1、中文分詞技術是中文自然語言處理的第一項核心技術,在語言理解中,詞是最小的語言成分,分詞處理過程通過計算機將句子轉化爲詞的表示。自中文自動分詞技術被提出以來,目前已經出現了很多方法,可主要歸納爲規則分詞、統計分詞和混合分詞三類主要方法。

原创 劃分數據集train_test_split參數含義

在使用sklearn進行數據集劃分時,代碼 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_tes

原创 TfidfVectorizer參數解析

vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5)   '''     關於參數:     stop_words

原创 貝葉斯新聞分類(一)

  (一)讀入數據 df_news = pd.read_csv('news_data.csv', encoding='utf-8') df_news=df_news.dropna() # print(df_news.shape) #

原创 關鍵詞提取

#使用jieba 和 sklearn都可以進行關鍵詞提取 import jieba.analyse index=2400 print(df_news['content'][index]) # str.join(sequence) se

原创 貝葉斯新聞分類(二)

前面(一)中用一種簡化的方式是直接使用TfidfVectorizer來生成TF-IDF向量,這裏我們按照一般的方式將生成TF-IDF向量分成兩個步驟:1.生成詞頻向量. 2.生成TF-IDF向量。最後我們開始訓練我們的Multinomia