《達觀杯》學習第一天(緒論入門)

一、機器學習目的尋找一個函數:這個函數可以完成的常見功能如圖

step1:定義一系列有一定功能的函數

step2:驗證這一系列函數的 優劣性

step3:尋找一個最優的函數

(二)、學習課表

(三)報名達觀杯並做一些準備

達觀公司組織的比賽,給好既定 的官方給的數據集,訓練得到機器學習模型,而如何 評判模型的優劣,用的是測試集(每個樣本沒有label信息),用模型對測試集進行分類,然後把分類好的結果給官方進行評判

1.傳統監督學習算法(西瓜書的章節有一 一對應)

(對數機率迴歸 / 支持向量機 / 樸素貝葉斯  / 決策樹 / 集成學習等)

2.深度學習

(CNN / RNN / attention模型  )

 

Q:提高模型性能

(a)數據預處理

(b)特徵工程 【特徵做的好,質的飛躍,例子:對於一個人,臉部特徵、身材特徵】

(c)機器學習算法:

(d)模型集成

(e) 數據增強

報了名,然後提交了結果,代碼按訓練營的代碼

print("開始.....................")

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

df_train = pd.read_csv('./train_set.csv')
df_test = pd.read_csv('./test_set.csv')
df_train.drop(columns = ['article','id'],inplace = True)
df_test.drop(columns = ['article'],inplace = True)

vectorizer = CountVectorizer(ngram_range = (1,2),min_df = 3,max_df = 0.9,max_features = 100000)
vectorizer.fit(df_train['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])
y_train = df_train['class'] - 1

lg = LogisticRegression(C = 4,dual = True)
lg.fit(x_train,y_train)

y_test = lg.predict(x_test)

df_test['class'] = y_test.tolist()
df_test['class'] = df_test['class'] + 1
df_result = df_test.loc[:,['id','class']]
df_result.to_csv('./result.csv',index = False)

print('完成................................')

成功了,明天自己要嘗試讀懂並備註這段代碼,自己要理解其原理所在。

安裝anaconda 遇見問題:下載安裝Anaconda 只出現prompt界面 

原因中途彈出的小黑窗手動給關閉了。卸載後讓默認要求重裝一次成功啦!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章