一、機器學習目的尋找一個函數:這個函數可以完成的常見功能如圖
step1:定義一系列有一定功能的函數
step2:驗證這一系列函數的 優劣性
step3:尋找一個最優的函數
(二)、學習課表
(三)報名達觀杯並做一些準備
達觀公司組織的比賽,給好既定 的官方給的數據集,訓練得到機器學習模型,而如何 評判模型的優劣,用的是測試集(每個樣本沒有label信息),用模型對測試集進行分類,然後把分類好的結果給官方進行評判
1.傳統監督學習算法(西瓜書的章節有一 一對應)
(對數機率迴歸 / 支持向量機 / 樸素貝葉斯 / 決策樹 / 集成學習等)
2.深度學習
(CNN / RNN / attention模型 )
Q:提高模型性能
(a)數據預處理
(b)特徵工程 【特徵做的好,質的飛躍,例子:對於一個人,臉部特徵、身材特徵】
(c)機器學習算法:
(d)模型集成
(e) 數據增強
報了名,然後提交了結果,代碼按訓練營的代碼
print("開始.....................")
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
df_train = pd.read_csv('./train_set.csv')
df_test = pd.read_csv('./test_set.csv')
df_train.drop(columns = ['article','id'],inplace = True)
df_test.drop(columns = ['article'],inplace = True)
vectorizer = CountVectorizer(ngram_range = (1,2),min_df = 3,max_df = 0.9,max_features = 100000)
vectorizer.fit(df_train['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])
y_train = df_train['class'] - 1
lg = LogisticRegression(C = 4,dual = True)
lg.fit(x_train,y_train)
y_test = lg.predict(x_test)
df_test['class'] = y_test.tolist()
df_test['class'] = df_test['class'] + 1
df_result = df_test.loc[:,['id','class']]
df_result.to_csv('./result.csv',index = False)
print('完成................................')
成功了,明天自己要嘗試讀懂並備註這段代碼,自己要理解其原理所在。
安裝anaconda 遇見問題:下載安裝Anaconda 只出現prompt界面
原因中途彈出的小黑窗手動給關閉了。卸載後讓默認要求重裝一次成功啦!