原创 hadoop生態圈各個組件簡介

Hadoop 是一個能夠對大量數據進行分佈式處理的軟件框架。具有可靠、高效、可伸縮的特點。 Hadoop 的核心是 HDFS 和 Mapreduce,HDFS 還包括 YARN。 1,HDFS(hadoop分佈式文件系統) 是hadoop

原创 Kmeans、Kmeans++和KNN算法比較

K-Means介紹        K-means算法是聚類分析中使用最廣泛的算法之一。它把n個對象根據他們的屬性分爲k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。其聚類過程可以用下圖表示:  

原创 程序員高手必會的十大編程算法

算法(Algorithm)是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,算法代表着用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。如果一個算法有缺陷,或不適合於某個問題,執行

原创 最小二乘法的思想

最小二乘法則是一種統計學習優化技術,它的目標是最小化誤差平方之和來作爲目標,從而找到最優模型,這個模型可以擬合(fit)觀察數據。  迴歸學習最常用的損失函數是平方損失函數,在此情況下,迴歸問題可以用著名的最小二乘法來解決。最小二乘法就是

原创 Java編程實現A*算法完整代碼

這篇文章主要介紹了Java編程實現A*算法完整代碼,簡單介紹了A*算法,然後分享了完整測試代碼,具有一定借鑑價值,需要的朋友可以參考下。 前言 A*搜尋算法俗稱A星算法。這是一種在圖形平面上,有多個節點的路徑,求出最低通過成本的算法。常用

原创 HDFS的shell常用命令大全

1.啓動相關     啓動zookeeper:zkServer.sh start     啓動HDFS:start-dfs.sh 不管在集羣中的那個節點都可以     啓動YARN:start-yarn.sh 只能在YARN主節點中進行啓

原创 hive-2.3.3的安裝詳解

1.安裝前的準備:     首先需要搭建好hadoop集羣並啓動(需要啓動hdfs和yarn)     mysql啓動正常 2.hive的安裝     方式一(不推薦):內嵌 Derby 版本     1、 上傳安裝包 apache-hi

原创 hive的基本使用及HQL

  ===================================================================== 1、 創建庫:create databas

原创 Hive的分區表和分桶表的區別

1,Hive分區。      是指按照數據表的某列或某些列分爲多個區,區從形式上可以理解爲文件夾,比如我們要收集某個大型網站的日誌數據,一個網站每天的日誌數據存在同一張表上,由於每天會生成大量的日誌,導致數據表的內容巨大,在查詢時進行全表

原创 JAVA項目打開出現紅色感嘆號!

JAVA項目打開出現紅色感嘆號!但是項目裏面沒有任何錯誤!檢查buildpath也沒錯 出現以下情況: 解決方法:  可能是Jar包路徑不對,在項目右擊jar包,然後選buildPath——>removed; 然後右擊項目Build P

原创 java.lang.ClassNotFoundException: org.gjt.mm.mysql.Driver錯誤在eclipse中的解決方法

       在Eclipse中學習Java和數據庫的連接調試程序過程中爆出java.lang.ClassNotFoundException: org.gjt.mm.mysql.Driver錯誤。雖然在classpath中已經添加了相關的

原创 hive面試題及解題思路

第一題: 現有這麼一批數據,現要求出: 每個用戶截止到每月爲止的最大單月訪問次數和累計到該月的總訪問次數 三個字段的意思: 用戶名,月份,訪問次數 A,2015-01,5 A,2015-01,15 B

原创 hive的HiveServer2/beeline配置及使用

第一:修改 hadoop 集羣的 hdfs-site.xml 配置文件:加入一條配置信息,表示啓用 webhdfs cd /home/hadoop/apps/hadoop-2.7.5/etc/hadoop <property>     

原创 大數據平臺常用組件端口號

常見端口彙總: Hadoop:         50070:HDFS WEB UI端口     8020 : 高可用的HDFS RPC端口     9000 : 非高可用的HDFS RPC端口     8088 : Yarn 的WEB U

原创 Linux下環境變量PATH設置錯誤,導致命令都找不到

PATH設置出錯,所有的命令都找不到了,提示說在/usr/bin/下面可以找到,使用export命令解決: export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin: