原创 機器學習-聚類系算法-k-means

K-means舉例shi'li 1 K-means算法簡介 k-means算法是一種聚類算法,所謂聚類,即根據相似性原則,將具有較高相似度的數據對象劃分至同一類簇,將具有較高相異度的數據對象劃分至不同類簇。聚類與分類最大的區別在於,聚類過

原创 機器學習-聚類系算法-DBSCAN

概念 DBSCAN中的幾個定義: Ε鄰域:給定對象半徑爲Ε內的區域稱爲該對象的Ε鄰域; 核心對象:如果給定對象Ε鄰域內的樣本點數大於等於MinPts,則稱該對象爲核心對象; 直接密度可達:對於樣本集合D,如果樣本點q在p的Ε鄰域內,並且p

原创 hadoop生態圈

環境組件 Hadoop common 該項目是爲了hadoop整體框架提供基礎的支持功能,主要包括了文件系統(FileSystem)、遠程過程調用協議(RPC)、數據串行化庫。 HDFS Hdfs是運行在由廉價計算機組成的大規模集

原创 機器學習-聚類系算法-層次聚類

層次聚類   層次聚類(Hierarchical Clustering)是聚類算法的一種,通過計算不同類別數據點間的相似度來創建一棵有層次的嵌套聚類樹。在聚類樹中,不同類別的原始數據點是樹的最低層,樹的頂層是一個聚類的根節點。創建聚類樹有

原创 Hbase(六) hbase Java API

一、 幾個主要 Hbase API 類和數據模型之間的對應關係: 1、 HBaseAdmin 關係: org.apache.hadoop.hbase.client.HBaseAdmin 作用:提供了一個接口來管理 HBase 數據庫的表

原创 hive從查詢中獲取數據插入到表或動態分區

Hive的insert語句能夠從查詢語句中獲取數據,並同時將數據Load到目標表中。現在假定有一個已有數據的表staged_employees(僱員信息全量表),所屬國家cnty和所屬州st是該表的兩個屬性,我們做個試驗將該表中的數據查詢

原创 linux及hadoop修改權限

inux下修改文件權限: 在shell環境裏輸入:ls -l 或者 ls -lh drwxr-xr-x 2 nsf users 1024 12-10 17:37 下載文件備份 對應: 文件屬性 連接數 文件擁有者 所屬羣組 文件大小 文件

原创 Hadoop:查看任務管理相關——操作命令

1.查看 Job 信息: hadoop job -list 2.殺掉 Job: hadoop  job –kill  job_id 3.指定路徑下查看歷史日誌彙總: hadoop job -history output-dir 4.作業的

原创 kafka工作原理介紹

原文鏈接:https://blog.csdn.net/qq_29186199/article/details/80827085 兩張圖讀懂kafka應用:   Kafka 中的術語      broker:中間的kafka cluste

原创 HBase 列族數據庫

數據模型      我們可以將一個表想象成一個大的映射關係,通過行健、行健+時間戳或行鍵+列(列族:列修飾符),就可以定位特定數據,HBase是稀疏存儲 數據的,因此某些列可以是空白的,     Row Key Time Stamp

原创 Region和Available Zone的區別

亞馬遜AWS是公共雲計算的先驅,一些雲計算中重要的產品設計和基礎概念可以說都是亞馬遜引入的。這其中有兩個非常重要的概念:地域(Region)和可用區(AZ:Available Zone)。很多第一次接觸雲計算的同學,光看這兩個名字的字面意

原创 hbase批量入庫遇到的坑

詳細請參考鏈接內容:https://blog.csdn.net/weixin_40861707/article/details/79105753

原创 mr 過程setSortComparatorClass和setGroupingComparatorClass

代碼:Customer.upsmart.recommend.TestReduceSort job.setPartitionerClass(PartitionClass.class); 對key取hash值(或其它處理),進入不同的red

原创 Hive 快速入門,MapReduce原理,優化方案

原文  http://gitbook.cn/books/5924bd0523245b0aa3776b65/index.html Hive 快速入門 作者:鳴宇淳 前言 我寫這篇文章的目的是儘可能全面地對Hive進行入門介紹,這篇文章是基於

原创 UUID的定義以及作用

UUID含義是通用唯一識別碼 (Universally Unique Identifier),這 是一個軟件建構的標準,也是被開源軟件基金會 (Open Software Foundation, OSF) 的組織應用在分佈式計算環境 (D