原创 數據建模學習筆記

1 基礎概念 數據建模方法,一般分爲三種:實體建模方法,維度建模方法,以及範式建模法。無論是哪種建模方法,都是使信息結構清晰,易於存儲和讀取。具體如下所述: a)實體建模方法 實體是現實世界中存在的事物或發生的事件,是現實世界中任

原创 Python 可視化 seaborn學習筆記

Python數據可視化 1、seaborn使用 詳細介紹可以看seaborn官方API和example galler。 一個較通用的繪圖函數 factorplot sns.factorplot(x=,y=,hue=分類標籤1,c

原创 hive中的lateral view 與 explode函數的使用

原文鏈接:https://blog.csdn.net/guodong2k/article/details/79459282 explode與lateral view在關係型數據庫中本身是

原创 建模前數據去噪方法總結

數據在建模之前,有的時候會存在大量噪聲,這個時候就需要去噪算法對原始數據進行去噪處理。目前瞭解到的去噪方法有:3標準差去噪,分箱去噪,dbscan去噪,孤立森林等。 其中,3標準差去噪,對於正態分佈的數據具有較好的去噪性能,

原创 ADF單位根檢驗方法

ADF檢驗,如果序列平穩,則不存在單位根,否則就會存在單位根。 若數據不平穩,則可以做差分變換,查看是否差分後平穩。 ADF原假設爲,序列存在單位根,即非平穩,對於一個平穩的時序數據,就需要在給定的置信水平上顯著,拒絕原假設。 若得

原创 hbase與mysql的區別

Hbase的優缺點 1 列的可以動態增加,並且列爲空就不存儲數據,節省存儲空間. 2 Hbase自動切分數據,使得數據存儲自動具有水平scalability. 3 Hbase可以提供高併發讀寫操作的支持 Hbase的缺點: 1 不能支