台部落joleoy

功能包括：異常值處理空置處理訓練集和測試集劃分 import numpy as np import pandas as pd from sklearn.decomposition import PCA from skle

2019-08-23 07:31:38

原文鏈接：https://vimsky.com/article/3677.html 在python中，如何使用word2vec來計算句子的相似度呢？第一種解決方法如果使用word2v

2019-08-23 07:31:37

原文鏈接：https://github.com/ajesipow/NN_credit_fraud/ 過採樣劃分數據集 import numpy as np import csv impo

2019-08-23 07:31:37

kaggle競賽本質上是套路的競賽。這篇文章講講kaggle競賽裏categorical feature的常用處理套路，主要基於樹模型（lightgbm，xgboost, etc.）。重點是target encoding 和 be

2019-06-16 10:21:34

顯式特徵組合常用方法：對特徵進行離散化然後進行叉乘，採用笛卡兒積、內積等方式針對不同特徵類型，有不同的處理方式數值特徵無監督離散化：根據簡單統計量進行等頻、等寬、分位點等劃分區間有監督離散化：IR方法、Entropy

2019-06-14 13:55:23

【導讀】不管是機器學習、深度學習或統計方法，任何的智能系統都需要數據支持。而原始數據往往很難被算法直接利用，因此特徵工程顯得尤爲重要。這是一篇完全手把手教你在實際應用中如何理解特徵工程的教程，在上一篇，作者研究了關於連續數值數據的特徵

2019-05-14 11:12:11

某大佬分享trick #數據集擴增 import cv2 import math import numpy as np import xml.etree.ElementTree as ET import os def rotate_

2019-01-21 14:46:28

以下都是從一些博客收集的數據處理trick，方便日後使用 1.基於sklearn同時處理連續特徵和離散特徵核心思路：先用LabelEncoder對離散特徵編碼，因爲onehotencoder只能處理數值然後使用OneHotEnc

2019-01-19 16:27:37

Word2Vec類介紹定義 def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_

2019-01-04 22:30:43

實現過程 from keras import backend as K def Precision(y_true, y_pred): """精確率""" tp= K.sum(K.round(K.clip(y_true

2019-01-04 22:30:43

預訓練概覽 [1] NLP領域的預訓練之風 [2] 自然語言處理中的語言模型預訓練方法 transformer模型 [1] 神經機器翻譯之谷歌 transformer 模型 [2] 注意力機制(Attention)最新綜述論文及相

2018-12-25 15:04:45

Spark一個非常重要的特性就是共享變量。默認情況下，如果在一個算子的函數中使用到了某個外部的變量，那麼這個變量的值會被拷貝到每個task中。此時每個task只能操作自己的那份變量副本。如果多個task想要共享某個變量，那麼這種方式

2018-12-16 16:20:03

Feather是一個快速、輕量級的存儲框架，可以在應用在pandas的Dataframe數據結構中。讀寫數據 import feather import pandas as pd def read_csv_feature(file

2018-12-16 16:20:03

XGBoost原理關於xgboost原因有很多文章做過詳盡的解釋，這裏列出基本思路和推薦一些文章。 xgboost推導過程一文讀懂機器學習大殺器XGBoost原理 xgboost原理總結和代碼展示 XGBoost重要的點 xg

2018-12-14 16:14:21

LightGBM原理之論文詳解提升樹是利用加模型與前向分佈算法實現學習的優化過程，它有一些高效實現，如XGBoost, pGBRT，GBDT等。其中GBDT採用負梯度作爲劃分的指標（信息增益），XGBoost則利用到二階導數。他們

2018-12-14 16:14:20