原创 Ranger用戶手冊、登錄系統、退出系統、添加服務、編輯服務、Ranger策略、HDFS策略、HIVE策略、HBASE策略

26.5.2登錄系統 26.5.3退出系統 26.5.4 Service Manager(Access Manager) 26.5.4.1添加服務 26.5.4.2HDFS 26.5.4.3 HBASE 26.5.4.4Hive

原创 Ambari中Ranger安裝

26.4Ambari中Ranger安裝 26.4.1準備工作 26.4.2正式安裝 26.4.2.1 創建數據庫 26.4.2.2 進入ambari管理界面,點擊add service 26.4.3訪問Apache Ranger(

原创 Apache Ranger、業務背景、現狀與需求、大數據安全組件介紹與對別、系統架構及實踐、ranger admin、UserSync、plugin、權限模型、權限實現等

26.2.1業務背景 26.2.1.1現狀&&需求 26.2.2大數據安全組件介紹與對比 26.2.2.2 Apache Sentry 26.2.2.3 Apache Ranger 26.2.3 Knox,ranger,Kerve

原创 HDFS權限設置 \ HDFS涉及ACLs的命令

本文主要參考:https://www.cnblogs.com/royfans/p/7326859.html https://www.cppentry.com/bencandy.php?fid=115&id=206011 HDFS權

原创 02_tensorflow2環境安裝、https://tensorflow.google.cn/overview中概述翻譯

1、新手入門 1.1 安裝tensorflow環境 1、安裝了Anaconda,進入Anaconda Prompt: 關於安裝Anaconda的博文參考:python安裝、anaconda安裝、pycharm安裝 2、檢測ana

原创 03_TF2 Guide、文檔清單(數據輸入、估計器、保存模型、加速器、性能調優等)、TF2庫和擴展庫(TensorBoard、數據集、TensorFlow Hub、概率和統計分析庫、圖像處理庫)

對應位置:https://tensorflow.google.cn/guide 本博文爲筆者對TensorFlow2官網翻譯,後續會將此博文完善,連接對應地址,將會被慢慢替換大家熟悉的中文博文 1、TensorFlow Guide

原创 01_關於TensorFlow、什麼是數據流圖(Data Flow Graph)、TensorFlow的特徵、誰可以使用Tensorflow、爲啥Google要開源這個神器?

1 關於TensorFlow TensorFlow™ 是一個採用數據流圖(data flow graphs),用於數值計算的開源軟件庫。節點(Nodes)在圖中表示數學操作,圖中的線(edges)則表示在節點間相互聯繫的多維數據數

原创 常見的六大聚類算法:轉自:https://blog.csdn.net/Katherine_hsr/article/details/79382249

1、K-Means(K均值)聚類 算法步驟: (1) 首先我們選擇一些類/組,並隨機初始化它們各自的中心點。中心點是與每個數據點向量長度相同的位置。這需要我們提前預知類的數量(即中心點的數量)。 (2) 計算每個數據點到中心點的距

原创 15_嶺迴歸-Ridge、嶺迴歸API、線性迴歸和嶺迴歸的對別;邏輯迴歸、sigmoid函數、邏輯迴歸公式、損失函數、邏輯迴歸API、邏輯迴歸案例、邏輯迴歸的優缺點、邏輯迴歸 VS 線性迴歸等

1、嶺迴歸 嶺迴歸是一種專用於共線性數據分析的有偏估計迴歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度爲代價獲得迴歸係數更爲符合實際、更可靠的迴歸方法,對病態數據的擬合要強於最小二乘

原创 16_非監督學習、k-means 4階段、kmeans API、Kmeans性能評估指標、案例

1、聚類算法介紹 關於聚類算法,可以查看:常見的六大聚類算法 2、k-means 4階段 K-means通常被稱爲勞埃德算法,這在數據聚類中是最經典的,也是相對容易理解的模型。算法執行的過程分爲4個階段。 1.首先,隨機設K個特

原创 6、HIVE JDBC開發、UDF、體系結構、Thrift服務器、Driver、元數據庫Metastore、數據庫連接模式、單/多用戶模式、遠程服務模式、Hive技術原理解析、優化等(整理的筆記)

目錄: 5 HIVE開發 5.1 Hive JDBC開發 5.2 Hive UDF 6 Hive的體系結構 6.2 Thrift服務器 6.3 Driver 6.4 元數據庫Metastore 6.5 數據庫連接模式 6.5.1

原创 5、HIVE DML操作、load數據、update、Delete、Merge、where語句、基於分區的查詢、HAVING子句、LIMIT子句、Group By語法、Hive 的Join操作等

目錄: 4.2.1 Load文件數據到表中 4.2.2查詢的數據插入到表中 4.2.3將Hive查詢的結果存到本地Linux的文件系統目錄中 4.2.4通過SQL語句的方式插入數據 4.2.5 UPDATE 4.2.6 Delet

原创 4、Hive數據操作,DDL操作,CRUD database,CRUD table,partition,view,index,show命令等

4.1DDL操作 4.1.1Create/Drop/Alter/Use Database 4.1.1.1Create Database 4.1.1.2Drop Database 4.1.1.3Alter Database 4.1.

原创 14_過擬合與欠擬合,過擬合和欠擬合產生的原因以及解決辦法,正則化,L1和L2

1.1 問題現象 問題:訓練數據訓練的很好啊,誤差也不大,爲什麼在測試集上面有問題呢? 這裏就涉及到 過擬合與欠擬合 的概念 比如: 經過訓練後,知道了天鵝是有翅膀的,天鵝的嘴巴是長長的。簡單的認爲有這些特徵的都是天鵝。因爲機器

原创 13_線性迴歸分析、線性模型、損失函數、最小二乘法之梯度下降、迴歸性能評估、sklearn迴歸評估API、線性迴歸正規方程,梯度下降API、梯度下降 和 正規方程對比

1.線性迴歸 1.1 線性模型 試圖學得一個通過屬性的線性組合來進行預測的函數: 1.2 定義 定義:線性迴歸通過一個或者多個自變量與因變量之間進行建模的迴歸分析。其中特點爲一個或多個稱爲迴歸係數的模型參數的線性組合。 一元線性