2.9學習筆記（西瓜書1）

原創

2020-07-08 06:12

提高模型性能：自己製作特徵，製作多個模型
特徵選擇：
1.跑一遍隨機森林得到特徵重要性，刪掉重要性低的
2.計算每個特徵和label的相關性

1.加載數據，數值化求特徵
2.svm算法學習一個模型
3.利用模型對新數據做分類預測

print("開始...................")

import pandas as pd
from sklearn.svm import LinearSVC '''線性svm分類器'''
from sklearn.feature_extraction.text import TfidfVectorizer '''要構造文本詞頻特徵的一個函數接口'''

df_train=pd.read_csv('./train_set.csv')
df_test=pd.read_csv('./test_set.csv')
#把下載的數據加載進來
df_train.drop(columns=['article','id'],inplace=True)
df_test.drop(columns=['article'],inplace=True)
#刪掉article和id列


vectorizer=TfidfVectorizer(ngram_range=(1,2),min_df=3,max_df=0.9)
#定義一個TfidVectorizer類
vectorizer.fit(df_train['word_seg'])
#調用這個方法，可以學習到這個訓練集的每個樣本所對應的的一個向量
x_train=vectorizer.transform(df_train['word_seg'])
x_test=vectorizer.transform(df_test['word_seg'])
y_train=df_train['class']-1	#讓label從0開始計數
#fit：爲轉換做準備
#transform：文本轉換成向量


#訓練一個SVM分類器
classifier=LinearSVC()	#初始化一個分類器
classifier.fit(x_train,y_train) #學習過程

#用學習好的分類器預測測試集樣本
y_test=classifier.predict(x_test)

#將預測結果保存到本地
df_test['class']=y_test.tolist()
df_test['class']=df_test['class']+1
df_result=df_test.loc[:,['id','class']]
df_result.to_csv('./result.csv',index=False)

print("結束............................")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Git使用經驗總結4-撤回上一次本地提交

這個問題的意義在於，Git提交代碼是先提交到本地，然後再推送到遠端。一些比較嚴格的Git倉庫會有一些代碼提交檢查，一旦檢查到問題就會禁止提交。那麼這個時候就尷尬了，本地已經提交了，但是遠端又推送不上去。基於當前版本作修改再提交也不一定能推送

2024-05-08 14:31:14

Git使用經驗總結5-修改提交信息

還是先說說這個這樣做的目的爲什麼。除了正常的進行代碼變更說明修改，更重要的是Git提交的時候能夠觸發一些操作，例如在Github上提交close#24這樣的關鍵字可以將提交關聯到具體的issue上，這樣可以讓變更關聯到具體的需求或者討論上。

2024-05-08 14:31:14

全站變灰色樣式通用

html { -webkit-filter: grayscale(100%); -moz-filter: grayscale(100%); -ms-filter: grayscale(100%); -o-filter: grayscale(

2024-05-08 14:30:44

php-strpos 判斷一個字符串是否存在於另一個字符串中

在 PHP 中，你可以使用 strpos() 函數來判斷一個字符串（例如 "play"）是否存在於另一個字符串中。strpos() 函數會返回子字符串在原始字符串中首次出現的位置（索引從 0 開始），如果子字符串不存在，則返回 false。

流年中渲染了微笑

2024-05-08 14:30:04

編程隨想曲週刊（第75期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。文章看完豆瓣電影250後的體驗羅永浩的嘴，蔚來的腿熱點蔡崇信最新發聲：阿里承認錯誤，我們到了最危險的時刻！ 5年來首次，馬雲內網髮長文播客 156.程

2024-05-08 14:27:23

編程隨想曲週刊（第76期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。編程從零開始的 OpenWrt 工具互聯網上最值得信賴的指南網站 Apple Store一條新規，直接讓遊戲機模擬器登頂了 iOS最強模擬器 Delta 正式上

2024-05-08 14:27:23

DeepFilterNet復現

大概框架有兩路特徵，一個ERB特徵，另外一個是STFT之後的複數特徵。先使用ERB濾波器對ERB特徵進行增益，然後再傳入DNN模型，兩階段模型。整體時延最低可達5ms。這裏提到的DeepFilter，其實就是說用神經網絡對TF譜進行操

2024-05-08 14:25:33

條款49：瞭解 new handler 的行爲

2024-05-08 14:21:53

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

作者：xlecho 鏈接：https://juejin.cn/post/6931890118538199048 血一般的教訓，請慎用 insert into select。同事應用之後，導致公司損失了近10w元，最終被公司開除。事情

2024-05-08 14:21:32

多語言實現 - 世界語言對應的簡寫

準備多語言文件： messages_en.properties、messages_zh.properties Locale locale = new Locale("en", "US"); // 設置語言爲英文，地區爲美國 Re

2024-05-08 14:15:12

《最新出爐》系列入門篇-Python+Playwright自動化測試-44-鼠標操作-上篇

1.簡介前邊文章中已經講解過鼠標的拖拽操作，今天宏哥在這裏對其的其他操作進行一個詳細地介紹和講解，然後對其中的一些比較常見的、重要的操作單獨拿出來進行詳細的介紹和講解。 2.鼠標操作語法鼠標操作介紹官方API的文檔地址：https://

2024-05-08 14:14:42

Docker 安裝 Elasticsearch 和 kibana

獲取鏡像 docker pull elasticsearch:8.11.4 docker pull elasticsearch:8.11.4 創建網絡 docker network create es-net 運行 es d

2024-05-08 14:14:21

算法~PBKDF2-SHA讓密碼更安全

摘要：在當今的數字世界中，密碼安全是至關重要的。爲了保護用戶密碼免受未經授權的訪問和破解，Password-Based Key Derivation Function 2 (PBKDF2)算法成爲了一種重要的工具。在 PBKDF2 算法中

2024-05-08 14:12:31

Computer Basics - Top 10 keyboard shortcuts everyone should know

REF https://www.computerhope.com/tips/tip79.htm Top 10 keyboard shortcuts(快捷鍵) everyone should know Using keyboard short

2024-05-08 14:10:30

Computer Basics - How to use a computer keyboard

REF https://www.computerhope.com/issues/ch001689.htm https://www.digitalunite.com/technology-guides/compute

2024-05-08 14:10:30

24小時熱門文章

最新文章

最新評論文章