原创 xgboost 使用 MAE或MAPE 作爲目標函數

xgboost目標函數 首先我們知道xgboost支持自定義目標函數,參見: https://github.com/dmlc/xgboost/blob/master/demo/guide-python/custom_objective.

原创 Prophet(預言者)facebook時序預測----論文總結以及調參思路

Prophet是比較簡單易用的,對於非時序預測和機器學習領域專家的是非常容易上手的。其參數大多數都是非常直觀的參數。(Prophet的python包大量使用了pandas庫,所以使用python做開發的需要首先了解pandas的使用。)

原创 類別特徵處理與實體嵌入

常見的類別特徵處理方法 one-hot (太經典這裏不再介紹) histgram 映射 Entity Embeddings(實體嵌入) histgram 映射 比如我們根據人們的一些身體特徵來預測這個人會不會得糖尿病 其中有一個類別

原创 Andrew Ng(吳恩達) deep learning 課程 (coursera)

引言 前段時間 Andrew Ng(吳恩達)在 Coursera 開設了深度學習的課程,正如 Andrew 在 Coursera 上的機器學習課程一樣,Andrew 總是面向零基礎的工程師來授課,而不是有專業背景的人員。所以課程總是會力求

原创 pandas 解析json文件爲DataFrame的三種方式以及其靈活度和效率的比較

我所瞭解到的,將json串解析爲DataFrame的方式主要有一樣三種: 利用pandas自帶的read_json直接解析字符串利用json的loads和pandas的json_normalize進行解析利用json的loads和pa

原创 kafka consumer 如何設置每次重啓時從最新數據開始讀取

    最近在做實時報警的機制,顯然我需要程序每次重啓時都讀取最新數據。但是尋找了半天無論是kafka的java客戶端還是python客戶端都沒有這樣的設置參數。沒辦法只能自己實現了,思路有兩種。 直接操作zookeeper,因爲kaf

原创 java.io.IOException: No FileSystem for scheme: file spark hadoop

問題描述 在IDEA中新建maven工程運行基本的spark程序如下: // 創建一個Scala版本的Spark Context val conf = new SparkConf().setAppName("wor

原创 ImportError: cannot import name activity_l2

在學習fast.ai第一課運行代碼就會報錯:ImportError: cannot import name activity_l2,這是因爲最新版本的keras已經不再提供activity_l2接口,最簡單的方式大家可以使用命令:pip

原创 離羣點檢測與序列數據異常檢測以及異常檢測大殺器-iForest

1. 異常檢測簡介     異常檢測,它的任務是發現與大部分其他對象不同的對象,我們稱爲異常對象。異常檢測算法已經廣泛應用於電信、互聯網和信用卡的詐騙檢測、貸款審批、電子商務、網絡入侵和天氣預報等領域。這些異常對象的主要成因有:來源於不

原创 Windows+python安裝xgboost(fix windowerror-127)

Windows+python安裝xgboost(絕對最靠譜,沒有之一) 話不多說,今天看一個python源碼用到了xgboost,而安裝xgboost本來是比較簡單的,遇到坑了,最後終於順利安裝完畢。 首先可以參考stackover

原创 模型融合-Kaggle Ensembling Guide

本文主要是參考 Kaggle Ensembling Guide 所寫的讀後感,原文網址詳見:https://mlwave.com/kaggle-ensembling-guide/ 首先,我們講到的模型融合的方式主要有三種: baggi