台部落初入小萌新

cat /etc/passwd | awk -F ':' 'BEGIN{print "名字\t用戶Id"} {if($3 >=500) print($1,$3)'} ':' :代表按照:進行分割 BEGIN:就是開始做的任務 $3,$1代

2020-06-16 07:09:22

create database 數據庫名大部分命令和sql命令一樣其創建出來的數據庫在hdfs文件系統中的/user/hive/warehouse 可以通過下面這個命令查看 hdfs dfs -ls /user/hive/wareho

2020-06-16 07:09:12

package com.mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.ha

2020-02-23 00:34:46

在使用 yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/hdfs-site.xml /out/02 跳出err

2020-02-23 00:34:46

這句話是將已經有內容的表comm3添加到分區表comm4中去需要設置 set hive.exec.dynamic.partition.mode=nonstrict; 此時插入數據不需要設置成nonstrict只需要設置成stric

2020-02-23 00:34:36

1、與文件大小無關，與有效數據讀寫有關 2、與實際運算的效率有關

2020-02-23 00:34:36

自己實現Combiner package com.mapreduce; import java.io.IOException; import org.apache.hadoop.examples.SecondarySort.Redu

2020-02-23 00:34:36

創建一個分區表 create table comm( id int, comment String, dt String ) partitioned by (year String) row format delimited field

2020-02-23 00:34:36

主程序代碼 package com.mapreduce; import java.io.IOException; import javax.imageio.stream.FileImageInputStream; import o

2020-02-23 00:34:36

一、數組的創建與操作 1.獲取數組的元素 import numpy as np arr1 = np.array([3,10,12,5,6,8,9,111]) print(arr1.shape) arr2 = np.reshape(ar

2018-11-04 05:43:28

一、爲啥分區 hive 爲了避免全表查詢，從而引進分區，將數據按目錄進行劃分，減少不必要的查詢，從而提高效率二、hive的分區和mysql分區的區別 mysql的分區字段用的是表內字段，hive的分區字段採用表外字段，也就是使用僞字段，

2018-10-20 05:27:08

join關鍵字默認爲內連接，返回兩張表中都有的信息； left join以前面的表作爲主表和其他表進行關聯，返回的記錄數和主表的記錄數相同，關聯不上的字段用NULL; right join與left相反，以後面的表爲主表，和前面的表做關聯

2018-10-15 04:44:51

算法思想：以空間中K個點爲中心，對最靠近他們的點進行歸類，通過迭代，逐次更新各聚類中心點的值，直到有最好的聚類效果算法描述： 1）開始隨機選中k個點作爲初始中心 2）開始迭代，求其到各中心ci的距離，算出距離di，選出di最小的一箇中

2018-09-30 05:05:42

一、推薦系統效果評估指標 1）均方根誤差（RMSE） f(u,i)代表的是預測值,代表的是實際值 N代表的測試集的數量所以RMSE也就是每個測試集的預測值和實際值的差的平方之和/測試集數量N 然後開根號 2）平均絕對誤差（MAE）

2018-09-26 04:46:19

一、一維梯度下降算法思想：我們要找到一個函數的谷底，可以通過不斷求導，不斷逼近，找到一個函數求導後爲0，我們就引入了一個概念學習率（也可以叫作步長），因爲是不斷逼近某個x，所以學習率過大會導致超過最優解，而學習率過小，會導致收斂速度

2018-09-26 04:46:19