原创 M5 Forecasting - Accuracy:Description

Introduction Welcome to an extensive Exploratory Data Analysis for the 5th Makridakis forecasting competitions (M5)

原创 M5 Forecasting - Accuracy:EDA

sales_train_validation.csv 參考: Python版本EDA+傳統時間序列方法:https://www.kaggle.com/tarunpaparaju/m5-competition-eda-models

原创 M5 Forecasting - Accuracy:TimeSeries_Seq2seq

來源 https://github.com/JEddy92/TimeSeries_Seq2Seq/blob/master/notebooks/TS_Seq2Seq_Conv_Full_Exog.ipynb 假設 145063

原创 互聯網用戶發起一次請求經歷了哪些過程?

李智慧老師說得非常棒,下面引自李智慧老師的《大型網站技術架構:核心原理與案例分析》一書以及《從0開始學大數據》: 首先,一個請求從Web或者移動App上發起,請求的URL是用域名標識的,比如taobao.com這 樣,而HTTP網

原创 Leetcode 199. 二叉樹的右視圖

Leetcode 199. 二叉樹的右視圖 難度:中等 用法:BFS 給定一棵二叉樹,想象自己站在它的右側,按照從頂部到底部的順序,返回從右側所能看到的節點值。 示例: 輸入: [1,2,3,null,5,null,4] 輸出:

原创 Leetcode 111. 二叉樹的最小深度

Leetcode 111. 二叉樹的最小深度 難度:簡單 用法:遞歸/DFS/BFS 給定一個二叉樹,找出其最小深度。 最小深度是從根節點到最近葉子節點的最短路徑上的節點數量。 說明: 葉子節點是指沒有子節點的節點。 示例: 給

原创 集成算法之CatBoost參數解釋

參考1 Catboost基礎介紹 作者介紹的很詳細了,包括: 安裝 Pool/FeaturesData(內存和速度都更優) Case Visualization(fit時settingplot=True,實時觀測訓練情況) Ea

原创 插排之希爾排序算法

步驟 將數據分成d = n//2 組,每一趟希爾排序從元素d開始,採用直接插排。 每個元素的比較和插入均在同一組內進行。 更新d = d//2 。 直到d=0時停止,當d=1時,相當於對近乎有序的結果進行一次完整的

原创 permutation importance

哪些特徵對預測的影響最大? 這或許是對一個模型提出的最基本問題之一。 這個概念就是所謂得到特徵重要性。 有多種方法來衡量特徵重要性。這篇文章Machine Learning Explainability Home Page採用了p

原创 關於最大熵原理的理解

李航老師《統計學習方法》一書描述: 最大熵原理是概率模型學習的一個準則。最大熵原理認爲,學習概率模型時,在所有可能的概率模型(分佈)中,熵最大的模型是最好的模型。通常用約束條件來確定概率模型的集合,所以,最大熵原理也可以表述爲在

原创 lightgbm GPU編譯以及安裝超詳細講解

以下安裝基於Ubuntu 18.04.3 Python 3.6.8 1. lightgbm GPU編譯 點擊鏈接 找到Build GPU Version或者直接看如下內容。 下面說的內容用到相關測軟件確保沒問題,1.檢查是否安

原创 python modin加速

modin 參考 BASE = '../data/output/grid_part_1.pkl' # Read data with Pandas import pandas as pd start_time = time.ti

原创 Centos7安裝Anaconda3配置jupyter notebook問題攻略

wget https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh bash Anaconda3-2020.02-Linux-x86_64.sh 這裏

原创 大數據集Hierarchical Indexing優化方案

1. 對比 數據量:(33694369, 3) The bad way 優化之前:30min跑不出來。 prices = prices.set_index(["id", "date"])[["sell_price"]].unsta

原创 交排之冒泡排序算法

步驟 從最後一個元素開始,進行相鄰兩元素比較,若前後元素是逆序,則實施交換。 第一遍下來,排在第一個元素是最小的元素,稱爲有序區(也是全局有序區),其餘的是無序區。 之後,按照第一步的方法繼續在其餘的無序區進行比較、交換。 直到