原创 人工智能_fly_02_matplotlib繪圖

今天記錄下如何用python畫散點圖、線性迴歸圖、含置信區間的線性迴歸圖以及雙變量曲線圖,下面是所有的代碼: # -*- coding: utf-8 -*- """ Created on Fri May 24 22:20:30 2013

原创 人工智能_fly_03_數學知識之 理解什麼是線性迴歸

理解什麼是線性迴歸 線性迴歸也被稱爲最小二乘法迴歸(Linear Regression, also called Ordinary Least-Squares (OLS) Regression)。它的數學模型是這樣的: y = a+

原创 人工智能_fly_01_matplotlib繪圖

# -*- coding: utf-8 -*- """ Created on Mon Apr 20 19:12:43 2020 @author: Administrator """ import numpy as np impor

原创 數倉_維度建模與緩慢變化維

    一、維度建模 維度表示你要對數據進行分析時所用的一個量, 比如你要分析產品銷售情況, 你可以選擇按類別來進行分析,或按區域來分析. 這樣的按..分析就構成一個維度。前面的示例就可以有兩個維度:類型和區域。另外每個維度還可以有子

原创 使用Eclipse搭建Hadoop編程環境

在前人的基礎上,進行總結學習,發現bug,修改bug。 系統平臺:Ubuntu14.04TLS(64位) Hadoop環境:Hadoop2.7.1 Eclipse:Neon.2 Release(4.6.2) Eclipse插件:ha

原创 Linux中腳本(script.sh)的運行

1.認識腳本:下面是個簡單的腳本 [root@centos06 tmp]# vi script.sh #!/bin/bash       #這行是shebang,shebang是個文本行,其中#!位於解釋器路徑之前,/bin/bash  

原创 HashMap與HashTable詳解

一、HashMap簡介      HashMap是基於哈希表實現的,每一個元素是一個key-value對,其內部通過單鏈表解決衝突問題,容量不足(超過了閥值)時,同樣會自動增長。      HashMap是非線程安全的,只是用於單線程環境

原创 Gson在解析java數據格式的三種範例

       Gson是谷歌提供的一個開源庫,用來解析json格式的數據非常好用。如果用maven進行項目管理的話,可以在pom.xml中引入如下依賴:<dependency> <groupId>com.google.code.g

原创 連接zookeeper出現異常:unknowHostException

我是用vm虛擬機創建了三臺虛擬服務機並建立了集羣,在用java客戶端去連zookeeper集羣的時候報錯:UnknowHostException,很明顯,這是無法識別主機名,我的java客戶端代碼如下: public class

原创 單機版Hbase的安裝與使用

         當你需要隨機,實時讀取大型數據的時候,用HBASE.這個項目的目的就在於處理超大量的表格:它能建立在普通硬件集羣上讀取十億行甚至更多行的數據。這是以谷歌的Bigtable爲原型的一個開源、有版本、非關係型的數據庫,正如B

原创 Yarn各組件詳細原理

 運行在獨立的節點上的ResourceManager和NodeManager一起組成了yarn的核心,構建了整個平臺。ApplicationMaster和相應的container一起組成了一個Yarn的應用系統。  ResourceMan

原创 MapReduce運用之粉絲互粉

項目名稱:粉絲互粉 項目說明:如下所示,分別給出微博用戶信息和其粉絲信息,如第一行:“:”左邊的代表用戶A,右邊是關注A的粉絲。 用戶和粉絲之間是單向關係,也即E是A的粉絲,但是A不一定是E的粉絲。 項目需求:用mapreduce找出兩兩

原创 消息隊列的使用場景

一、消息隊列概述消息隊列中間件是分佈式系統中重要的組件,主要解決應用耦合,異步消息,流量削鋒等問題。實現高性能,高可用,可伸縮和最終一致性架構。是大型分佈式系統不可缺少的中間件。目前在生產環境,使用較多的消息隊列有ActiveMQ,Rab

原创 Azkaban3X的編譯安裝與使用(確定可用)--提供已經編譯好的工具供大家使用

一、Azkaban3X的編譯及安裝使用(我這裏配置的是two servermode模式,exec-server與web-server在不同進程中,在同一臺server中) 1.先檢查下網絡是否暢通:ping  www.baidu.com 

原创 Hbase全分佈式安裝( Adanced-Fully Distributed)--最接近生產環境

       即將構建的集羣節點情況說明,需要三臺server(centos01,centos02,centos03),分別代表節點1,2,3.HBase是在hadoop和zookeeper的前提下搭建的,所以必須提前在三臺server上