《達觀杯》學習第一天（緒論入門）

原創

zyr_freedom

2020-07-08 08:27

一、機器學習目的尋找一個函數：這個函數可以完成的常見功能如圖

step1：定義一系列有一定功能的函數

step2：驗證這一系列函數的優劣性

step3：尋找一個最優的函數

（二）、學習課表

（三）報名達觀杯並做一些準備

達觀公司組織的比賽，給好既定的官方給的數據集，訓練得到機器學習模型，而如何評判模型的優劣，用的是測試集（每個樣本沒有label信息），用模型對測試集進行分類，然後把分類好的結果給官方進行評判

1.傳統監督學習算法（西瓜書的章節有一一對應）

（對數機率迴歸 / 支持向量機 / 樸素貝葉斯 / 決策樹 / 集成學習等）

2.深度學習

（CNN / RNN / attention模型）

Q：提高模型性能

（a）數據預處理

（b）特徵工程【特徵做的好，質的飛躍，例子：對於一個人，臉部特徵、身材特徵】

（c）機器學習算法：

（d）模型集成

（e）數據增強

報了名，然後提交了結果，代碼按訓練營的代碼

print("開始.....................")

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

df_train = pd.read_csv('./train_set.csv')
df_test = pd.read_csv('./test_set.csv')
df_train.drop(columns = ['article','id'],inplace = True)
df_test.drop(columns = ['article'],inplace = True)

vectorizer = CountVectorizer(ngram_range = (1,2),min_df = 3,max_df = 0.9,max_features = 100000)
vectorizer.fit(df_train['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])
y_train = df_train['class'] - 1

lg = LogisticRegression(C = 4,dual = True)
lg.fit(x_train,y_train)

y_test = lg.predict(x_test)

df_test['class'] = y_test.tolist()
df_test['class'] = df_test['class'] + 1
df_result = df_test.loc[:,['id','class']]
df_result.to_csv('./result.csv',index = False)

print('完成................................')

成功了，明天自己要嘗試讀懂並備註這段代碼，自己要理解其原理所在。

安裝anaconda 遇見問題：下載安裝Anaconda 只出現prompt界面

原因中途彈出的小黑窗手動給關閉了。卸載後讓默認要求重裝一次成功啦！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《達觀杯》學習第一天（緒論入門）

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

《達觀杯》學習第二天（代碼學習及其分析）

《達觀杯》學習第一天（緒論入門）

win10下深度學習框架搭建

tf.name_scope(‘xxx’) // tf.variable_scope(‘xxx’) 權值共享

論文——《Loss Functions for Image Restoration With Neural Networks》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結