原创 NLP實踐-Task1 THUCNews和IMDB數據集探索

全部代碼鏈接:https://github.com/gaussic/text-classification-cnn-rnn 數據處理py,包含了對數據集的分詞、去除停用詞、特徵提取等功能。 import jieba import pan

原创 2018中國高校計算機大賽——大數據挑戰賽總結

比賽鏈接:https://www.kesci.com/home/competition/5ab8c36a8643e33f5138cba4 比賽排名:14/1392 一.數據劃分 初賽(定長窗口):             train  

原创 python 數據預處理

1.缺失值填充 import numpy as np import pandas as pd df = pd.DataFrame({'a': [3, 1, 3, 2, 4, 3, 2, 4, 3],

原创 python 皮爾遜相關係數

from scipy.stats import pearsonr x = [0.5, 0.4, 0.6, 0.3, 0.6, 0.2, 0.7, 0.5] y = [0.6, 0.4, 0.4, 0.3, 0.7, 0.2, 0.5,

原创 機器學習 線性迴歸

1.線性迴歸 1.1原理         線性迴歸就是通過擬合已知的數據來得到一個線性模型,然後再利用線性模型來預測其他數據,使得預測結果接近真實值,達到預期目標。最後把真實值和預測值作比較,計算均方誤差,求取均方誤差最小時的一組值。 假

原创 機器學習 k-mediods算法

1.原理          k-mediods聚類算法原理和k-means聚類算法原理大體相似,主要不同的是k-means聚類算法更新聚簇中心的時候直接計算的均值,而k-mediods聚類算法更新聚簇中心的時候先對每個聚簇中心計算每一個點

原创 機器學習 決策樹

1.決策樹種類 算法 支持類型 樹結構 特徵選擇 連續值處理 缺失值處理 剪枝 ID3 分類 多叉樹 信息增益 不支持 不支持 不支持 C4.5(J48) 分類 多叉樹 信息增益率 支持 支持 支持 CART 分類,迴歸 二叉樹 基尼係數

原创 python 時間處理

datetime模塊包含一下四個類:datetime.time:時間類,只包含時、分、秒、微秒等時間信息。datetime.date:日期類,只包含年、月、日、星期等日期信息。datetime.datetime:日期時間類,包含以上兩者的

原创 機器學習 數據分析基礎

1.數據類型 (1)數值型    ● 連續型:利用實數表示屬性    ● 離散型:利用整數表示屬性 (2)標稱型    ● 0-1型:預先定義一個類別,若記錄屬於該類別則爲1,否則爲0    ● 多值標稱型:預先定義一個類別集合,用類別集

原创 機器學習 EM算法

參考鏈接:https://blog.csdn.net/zhihua_oba/article/details/73776553

原创 python pandas

import numpy as np import pandas as pd df = pd.DataFrame({'a': [1, 4, 2, 3, 3, 2, 3, 1], 'b': [4,

原创 機器學習 k-means算法

1.原理         k-means是一種無監督的基於距離的聚類算法。在無監督的算法中,訓練集的標籤信息是不知道的,任務是通過對訓練樣本的學習來揭示數據的內在性質和規律。聚類是將訓練集中的樣本劃分爲若干個不想交的子集,每一個子集稱爲一

原创 機器學習 模型融合

1.Voting         投票法針對分類模型,多個模型的分類結果進行投票,少數服從多數。除了公平投票外,還可以給投票設置權重,分類器效果越好權重越高,分類器效果越差,權重越低。 2.Averaging 迴歸問題:直接取平均值作爲最

原创 機器學習 評價指標

from sklearn.metrics import * # 參考鏈接 # https://blog.csdn.net/shine19930820/article/details/78335550 # https://blog.c

原创 python matplotlib

import matplotlib.pyplot as plt # 設置中文字體 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minu