數據競賽——0

原創

2020-06-19 23:15

“達觀杯”文本智能處理挑戰賽

第一次數據競賽

第一次數據競賽

這是我在學習完Python和機器學習的基本知識後的第一次實踐，更是一次成長。

獲取數據

在DataCastle中註冊，並且報名“達觀杯”文本智能處理挑戰賽（已經結束，但是任然可以使用），下載比賽數據。

讀取數據

數據分爲兩部分訓練數據和測試數據都是CSV格式的，首先通過利用Excel打開數據來進行觀察數據（數據較大，內存不夠的話會打不開，而且卡死電腦），訓練數據是進行脫敏的數據，數據不是乾淨的，在對數據進行後期處理前需要預處理。通過Python來讀取比賽數據，此處用到pandas庫中的csv格式讀取函數read_csv。

數據分割

對讀取進來的數據利用sklearn.model_selection中的train_test_split進行分割。train_test_split是交叉驗證中常用的函數，詳細教程可以參考官網train_test_split.

具體實現

import pandas as pd
from sklearn.model_selection import train_test_split

data = pd.read_csv('train_set.csv')

data_list = data.columns
data_list = data_list.drop('class')
data = data[data_list]
y_list = data['class']

X_train, X_test, Y_train, Y_test = train_test_split(data, y_list, test_size=0.3, random_state=2019)

參考文獻
[1]: https://blog.csdn.net/mrxjh/article/details/78481578
[2]: https://blog.csdn.net/together_cz/article/details/80001715
[3]: https://www.cnblogs.com/unnameable/p/7366437.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據競賽——3

“達觀杯”文本智能處理挑戰賽之三 LightGBM：Light Gradient Boosting Machine，是一個實現GBDT (Gradient Boosting Decision Tree)算法的框架，支持高效率的並

2020-06-20 00:29:25

數據競賽——5

Stacking Stacking：表示學習指的是模型從原始數據中自動抽取有效特徵的過程。 Stacking先從初始數據集訓練出初級學習器，將初級學習器的輸出當作特徵構成新數據集，利用新數據集再訓練次級學習器(meta-learn

2020-06-19 23:15:29

Stacking結構介紹+代碼實現

stacking是這兩年打數據比賽被人熟知的方法，看了幾篇，感覺有幾個寫的不錯。 1.介紹篇：https://blog.csdn.net/wstcjf/article/details/77989963 2.代碼篇： https://b

2020-06-23 18:06:04

2020中國高校計算機大賽·華爲雲大數據挑戰賽正式賽題——船運到達時間預測賽題整理6.21版本（持續更新~）

2020中國高校計算機大賽·華爲雲大數據挑戰賽正式賽題——船運到達時間預測整理分析6.21版本（持續更新~）寫在前面：大家好！我是練習時長半年的在讀本科生數據小白JerryX，各位數據挖掘大佬有什麼問題和建議多多指教！！歡迎大

2020-06-21 21:20:55

數據挖掘比賽模板

Santander ML Explainability1 準本步驟1-1.導包1-2 設置1-3 版本2 問題描述3 EDA3-1 數據採集減小內存3-1-1 數據集字段3-2-2 數值描述3-2可視化3-2-1 直方圖3-2-2

2020-06-21 11:12:15

數據競賽——4

RCNN RCNN：Region-based Convolutional Neural Networks，是將CNN方法引入目標檢測領域，很大程度上提高了目標檢測效果。RCNN最初被髮表於 2014的CVPR 。此處獻上RCNN原

2020-06-19 23:15:28

數據競賽——2

“達觀杯”文本智能處理挑戰賽之二邏輯迴歸(LR)支持向量機(SVM) 邏輯迴歸(LR) 邏輯迴歸：Logistic regression，名義上帶有“迴歸”字樣，可能會被以爲是預測方法，其實質卻是一種常用的分類模型，主要被用於二分

2020-06-19 23:15:28

數據競賽——1

“達觀杯”文本智能處理挑戰賽之一TF-IDFword2vec TF-IDF TF-IDF是一種統計方法，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。（百度百科） TF（Term Frequency）詞頻，某

2020-06-19 23:15:28

2020“東方國信杯”高校大數據開發大賽最終榜第三名思路分享

2020“東方國信杯”高校大數據開發大賽最終榜第三名思路分享 2020“東方國信杯”高校大數據開發大賽剛剛結束，我所在的隊伍“三人運動團”最後取得了3/453 這個還算不錯的成績。感謝兩位大佬隊友的一路相伴！！下面我將分享一下我

2020-06-19 11:19:39

數據可視化方法與實例整理

數據可視化方法與實例整理本篇文章梳理了"東方國信杯"大賽有關的常用數據分析方法簡介的培訓課程資料。這個數據分析資料不侷限於單個比賽，而是提供了一種比較完整的數據分析思路，有助於更好的我們在數據挖掘比賽以及及其他的數據分析任務

2020-06-19 11:19:39

2020中國高校計算機大賽·華爲雲大數據挑戰賽熱身賽——交通流量預測賽題分析（完結撒花）

2020中國高校計算機大賽·華爲雲大數據挑戰賽熱身賽_交通流量預測賽題分析6.2更新版(完結撒花）寫在前面：大家好！我是練習時長半年的在讀本科生數據小白JerryX，各位數據挖掘大佬有什麼問題和建議多多指教！！歡迎大家多多點贊，

2020-06-19 10:08:41

零基礎數據挖掘入門系列(二) - 數據的探索性（EDA）分析

思維導圖：零基礎入門數據挖掘的學習路徑 1. 寫在前面零基礎入門數據挖掘是記錄自己在Datawhale舉辦的數據挖掘專題學習中的所學和所想，該系列筆記使用理論結合實踐的方式，整理數據挖掘相關知識，提升在實際場景中的數據分析、數

2020-06-17 16:03:19

Task2——數據分析

1. 賽題理解此次數據挖掘的目標爲二手車交易價格預測，該問題本質上是一個迴歸問題。（1）數據集介紹數據總量超過370000條，隨機抽取其中10萬條作爲訓練數據集，5萬條作爲測試集A，5萬條作爲測試集B。數據共包含20個特徵變

伸腿瞪眼丸

2020-06-17 07:34:03

【用pyecharts做地理圖】（airbnb租房數據分析）（天池競賽）

項目介紹項目來源：天池大數據平臺項目思路：針對airbnb中listings表做數據處理，探索分析以及針對經緯度以及價格做地理價格圖（pyecharts） python：3.7.1 pyecharts：1.2.0 天池平臺的這

努力学习数据分析的周果昂

2020-06-16 08:18:18

2020屆”東方國信杯”高校大數據開發大賽-數據可視化方法與實例

2020-05-24 11:12:11

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章