原创 pandas之concat timestamp的使用

In [1]: import pandas as pd In [2]: df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)}) In [3]:

原创 Spark-Hive

1、表:Hive中的表和關係型數據庫中的表在概念上很類似,每個表在HDFS中都有相應的目錄用來存儲表的數據,這個目錄可以通過${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.ware

原创 Kaggle - Bike Sharing Prediction

import pylab import calendar import numpy as np import pandas as pd import seaborn as sn from scipy import stats impor

原创 MachineLearning—集成學習(Ensemble Learning)

集成學習是提高模型魯棒性的重要方法,在數據、特徵處理之後的階段,如果在算法方面沒有提升,可以嘗試在模型集成方面發力,可以收到意想不到的結果。但並不是使用集成學習方法就一定會提高結果。例如stacking方法,理論講其結果漸進等價於第一層最

原创 Pandas 速查

如果不歸一化,各維特徵的跨度差距很大,目標函數就會是“扁”的,圖中橢圓表示目標函數的等高線,兩個座標軸代表兩個特徵。 在進行梯度下降的時候,梯度的方向就會偏離最小值的方向,走很多彎路。 歸一化後,那麼目標函數就變“圓”了,每一步梯度的方向

原创 使用sklearn - 特徵工程

特徵處理是特徵工程的核心,sklearn提供了較爲完整的特徵處理方法! 本文中使用sklearn中的IRIS數據集來對特徵處理功能進行說明。IRIS包含4個特徵(Sepal.Length(花萼長度)、Sepal.Width(花萼寬度)、P

原创 Hive_SQL(三)

hive> SELECT pi_cust_item_recommend2.cust_id, pi_cust_item_recommend2.item_id, pi_cust_item_recommend2.advise_level,pi

原创 Hive_SQL(四)

CREATE TABLE pi_cust_item_recommend8( > ADVISE_ID VARCHAR(30), > CUST_CODE VARCHAR(30), > CGT_CODE VARCHAR

原创 tSNE—高維數據降維可視化(實踐部分)-Kmeans聚類

import pandas as pd cust_sale=pd.read_excel('C:/Users/XI/fzql.xls') cust_sale=pd.merge(temp1,temp2,on='CUST_ID',how='in

原创 MachineLearning—隨機森林(Random Forest)

  隨機森林(Random Forest,簡稱RF)到底是怎樣的一種算法呢?如果讀者接觸過決策樹(Decision Tree)的話,那麼會很容易理解什麼是隨機森林。隨機森林就是通過集成學習的思想將多棵樹集成的一種算法,它的基本單元是決策樹

原创 二分查找

def binary_search(list,item): low = 0 high = len(list)-1 while low<=high: mid = (low+high)/2

原创 VIM—Linux指令

cp /usr/inspur/2.5.0.0-1245/spark2/python/spark_recommend.py /usr/inspur/2.5.0.0-1245/spark2/python/pyspark You have m

原创 Hive_SQL(二)

hive> create table pi_cust_item_recommend2( > cust_id string, > item_id bigint, > advise_level double

原创 Hive_SQL(一)

Last login: Tue Aug 29 09:11:12 2017 from 10.72.37.75 [root@bdddev-agent-205 ~]# su hive [hive@bdddev-agent-205 root]$

原创 C++學習之路(一)

此篇博文爲C++學習之路第一篇,如前所述,我們的資料主要依據《C++ Primer Plus》這本書,順序也基本按照書中的理解;歡迎大家指正交流!using name space;std::cout std::endl 名稱空間std s