原创 awk處理數據

cat /etc/passwd | awk -F ':' 'BEGIN{print "名字\t用戶Id"} {if($3 >=500) print($1,$3)'} ':' :代表按照:進行分割 BEGIN:就是開始做的任務 $3,$1代

原创 Hive的命令

create database 數據庫名 大部分命令和sql命令一樣 其創建出來的數據庫在hdfs文件系統中的/user/hive/warehouse 可以通過下面這個命令查看 hdfs dfs -ls /user/hive/wareho

原创 Hadoop MapReduce 的模板

package com.mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.ha

原创 關於yarn jar error Command "jar" not found.

在使用  yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/hdfs-site.xml /out/02 跳出err

原创 hive分區2

這句話是將已經有內容的表comm3添加到分區表comm4中去 需要設置  set hive.exec.dynamic.partition.mode=nonstrict; 此時插入數據不需要設置成nonstrict只需要設置成stric

原创 hadoop處理數據的效率的幾個因素

1、與文件大小無關,與有效數據讀寫有關 2、與實際運算的效率有關    

原创 Hadoop中MapReduce 的Combiner 的實現

自己實現Combiner package com.mapreduce; import java.io.IOException; import org.apache.hadoop.examples.SecondarySort.Redu

原创 hive分區

創建一個分區表 create table comm( id int, comment String, dt String ) partitioned by (year String) row format delimited field

原创 Hadoop 分區案例(根據不同的值分到不同文件)

主程序代碼 package com.mapreduce; import java.io.IOException; import javax.imageio.stream.FileImageInputStream; import o

原创 python-Numpy學習(全)

一、數組的創建與操作 1.獲取數組的元素 import numpy as np arr1 = np.array([3,10,12,5,6,8,9,111]) print(arr1.shape) arr2 = np.reshape(ar

原创 hive 分區和分桶

一、爲啥分區 hive 爲了避免全表查詢,從而引進分區,將數據按目錄進行劃分,減少不必要的查詢,從而提高效率 二、hive的分區和mysql分區的區別 mysql的分區字段用的是表內字段,hive的分區字段採用表外字段,也就是使用僞字段,

原创 hive join

join關鍵字默認爲內連接,返回兩張表中都有的信息; left join以前面的表作爲主表和其他表進行關聯,返回的記錄數和主表的記錄數相同,關聯不上的字段用NULL; right join與left相反,以後面的表爲主表,和前面的表做關聯

原创 K-means算法

算法思想: 以空間中K個點爲中心,對最靠近他們的點進行歸類,通過迭代,逐次更新各聚類中心點的值,直到有最好的聚類效果 算法描述: 1)開始隨機選中k個點作爲初始中心 2)開始迭代,求其到各中心ci的距離,算出距離di,選出di最小的一箇中

原创 CF推薦算法-近鄰

一、推薦系統效果評估指標 1)均方根誤差(RMSE) f(u,i)代表的是預測值,代表的是實際值 N代表的測試集的數量 所以RMSE也就是每個測試集的預測值和實際值的差的平方之和/測試集數量N 然後開根號 2)平均絕對誤差(MAE)

原创 梯度下降 隨機梯度下降 算法

一、一維梯度下降 算法思想: 我們要找到一個函數的谷底,可以通過不斷求導,不斷逼近,找到一個函數求導後爲0,我們就引入了一個概念 學習率(也可以叫作步長),因爲是不斷逼近某個x,所以學習率過大會導致超過最優解,而學習率過小,會導致收斂速度