原创 數據預處理DEMO

功能包括: 異常值處理 空置處理 訓練集和測試集劃分 import numpy as np import pandas as pd from sklearn.decomposition import PCA from skle

原创 在python中如何用word2vec來計算句子的相似度

原文鏈接:https://vimsky.com/article/3677.html 在python中,如何使用word2vec來計算句子的相似度呢? 第一種解決方法 如果使用word2v

原创 利用NN處理不平衡數據集

原文鏈接:https://github.com/ajesipow/NN_credit_fraud/ 過採樣劃分數據集 import numpy as np import csv impo

原创 kaggle編碼categorical feature總結

kaggle競賽本質上是套路的競賽。這篇文章講講kaggle競賽裏categorical feature的常用處理套路,主要基於樹模型(lightgbm,xgboost, etc.)。重點是target encoding 和 be

原创 離散特徵處理方法

顯式特徵組合 常用方法:對特徵進行離散化然後進行叉乘,採用笛卡兒積、內積等方式 針對不同特徵類型,有不同的處理方式 數值特徵 無監督離散化:根據簡單統計量進行等頻、等寬、分位點等劃分區間 有監督離散化:IR方法、Entropy

原创 理解特徵工程Part 1——類別型變量

【導讀】不管是機器學習、深度學習或統計方法,任何的智能系統都需要數據支持。而原始數據往往很難被算法直接利用,因此特徵工程顯得尤爲重要。這是一篇完全手把手教你在實際應用中如何理解特徵工程的教程,在上一篇,作者研究了關於連續數值數據的特徵

原创 圖像數據增強

某大佬分享trick #數據集擴增 import cv2 import math import numpy as np import xml.etree.ElementTree as ET import os def rotate_

原创 數據處理trick

以下都是從一些博客收集的數據處理trick,方便日後使用 1.基於sklearn同時處理連續特徵和離散特徵 核心思路: 先用LabelEncoder對離散特徵編碼,因爲onehotencoder只能處理數值 然後使用OneHotEnc

原创 word2vec兩種訓練方法

Word2Vec類介紹 定義 def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_

原创 使用keras實現Precise, Recall, F1-socre

實現過程 from keras import backend as K def Precision(y_true, y_pred): """精確率""" tp= K.sum(K.round(K.clip(y_true

原创 預模型模型相關文章

預訓練概覽 [1] NLP領域的預訓練之風 [2] 自然語言處理中的語言模型預訓練方法 transformer模型 [1] 神經機器翻譯 之 谷歌 transformer 模型 [2] 注意力機制(Attention)最新綜述論文及相

原创 Spark共享變量

Spark一個非常重要的特性就是共享變量。 默認情況下,如果在一個算子的函數中使用到了某個外部的變量,那麼這個變量的值會被拷貝到每個task中。此時每個task只能操作自己的那份變量副本。如果多個task想要共享某個變量,那麼這種方式

原创 利用feather快速處理大數據

Feather是一個快速、輕量級的存儲框架,可以在應用在pandas的Dataframe數據結構中。 讀寫數據 import feather import pandas as pd def read_csv_feature(file

原创 XGBoost若干個問題

XGBoost原理 關於xgboost原因有很多文章做過詳盡的解釋,這裏列出基本思路和推薦一些文章。 xgboost推導過程 一文讀懂機器學習大殺器XGBoost原理 xgboost原理總結和代碼展示 XGBoost重要的點 xg

原创 【轉】LightGBM原理之論文詳解

LightGBM原理之論文詳解提升樹是利用加模型與前向分佈算法實現學習的優化過程,它有一些高效實現,如XGBoost, pGBRT,GBDT等。其中GBDT採用負梯度作爲劃分的指標(信息增益),XGBoost則利用到二階導數。他們