原创 centos7中安裝cdh5.15

cdh搭建1.軟件準備 軟件 版本 os Centos 7.3(64位) cm cloudera-manager-centos7-cm5.15.0_x86_64.tar.gz cdh CDH-5.15.0-1.cdh5

原创 shell中參數傳遞注意事項

 在編寫shell腳本時,爲了使腳步具有更大的靈活性,往往我們會在執行腳本時再去傳遞想要實現的參數,而不是在腳本中直接寫死參數變量,但我們在做參數傳遞時需要注意,外部傳入的參數變量不能放在function中進行判斷,否則參數傳遞會失效,如下

原创 ssh長時間連接騰訊雲centos服務器

 通過ssh連接騰訊雲服務器時,稍微隔一段時間未操作連接便會斷開,要解決這個問題需要對配置文件做一些調整。參照網上的介紹,嘗試了兩種方案,經過測試第二種方案對我的機器沒有效果(也許對其它系統的機器有效),第一種方案可行。1.編輯/etc/s

原创 hive sql的執行及編譯過程

一、hive在執行sql時會以mapreduce的方式對數據進行接入和處理,其主要包含以下幾個階段:1.hive首先根據sql語句中的表從hdfs文件中獲取數據,對數據文件進行split操作,使其可以一行一行將所需數據讀入內存;2.map函

原创 centos7上安裝mysql8

1.首先在mysql官網下載rpm文件: shell>wget http://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm 如果對這個版本不滿意也可以登錄https

原创 數據倉庫層級

從數據的獲取到數據提供到最終的應用方,數據倉庫中,我們將其分爲源數據層、操作數據層、數倉公共層、集市層四個層次。1.數據採集到後會根據數據本身特性分別進入stage和ods,stage區的數據處理過後也會存入ods中,對後面的服務統一由od

原创 VirtualBox擴展虛擬機存儲

1)打開VirtualBox,選中相應虛擬機(不要啓動),點擊“設置”2)選擇介質,選中SATA控制器,點選增加虛擬硬盤的圖標3)選擇新建,進入“創建新的虛擬硬盤”嚮導,點擊下一步4)設定新虛擬硬盤所在位置和空間大小5)確認信息後點擊完成6

原创 轉載雜項集

python安裝virtualenv環境:https://www.jianshu.com/p/a83a8f5d68dd?utm_campaign=maleskine&utm_content=note&utm_medium=writer_sh

原创 hive中數據傾斜

數據傾斜通常指hive根據key值hash分發到各個節點,相同的key值會分發到一個執行節點中,由於某些key值對應的數據量比其它key值的數據量大很多,導致某些執行節點的運行時間遠大於其它節點,從而導致整個job執行時間較長。在hive中

原创 數據倉庫建模流程

數據模型:抽象描述現實世界的一種工具和方法,通過抽象的實體及實體之間聯繫的形式,來表示現實世界中事務的相互關係的一種映射。在這裏,數據模型表現的抽象的是實體和實體之間的關係,通過對實體和實體之間關係的定義和描述,來表達實際的業務中具體的業

原创 jupyter notebook安裝

    在mac上安裝jupyter notebook還算順利,主要是借鑑了mybefly的分享文檔,這裏講安裝過程使用到的步驟做一個記錄:    1.升級pip:sudo python -m pip install --upgrade -

原创 數倉模型示例

數倉模型案例一、範式建模1.零範式爲便於分級說明三範式的特點,我們將不滿足任何範式即無範式的數據稱爲零範式,假設它只滿足一個最基本的條件——數據中不存在重複數據。假設根據零範式的定義數據庫中有一張保險訂單統計表,表中包含了用戶id、保險id

原创 感知機(perceptron)

    感知機屬於有監督的學習,生成的模型稱爲判別模型。其通過特定的函數將輸入的特徵向量,輸出爲實例的類別(+1或-1),該函數即爲將實例劃分爲兩類的分離超平面。爲獲得最優化的超平面,感知機引入了基於誤分類的損失函數。感知機是神經網絡和支持

原创 層次分析法(AHP)

AHP基本思路AHP通常用於決策判斷的重要依據,在某些方面具有很好的指導作用,尤其是定性判斷指標轉化爲定量數據時。比如我們打算新建一座商場,初步認定了A、B、C三地,這三個地區的各項指標都非常接近,此時決策者在做判斷時基本就會以拍腦袋爲主,

原创 git在windows中的known_hosts問題

使用git連接之前配置好的公司內部git服務器時遇到無連接權限問題。根據提示發現是服務器切換了內部ip地址,因此需要在known_hosts文件夾中重新設置ip。1.首先進入.ssh文件夾,該目錄下共有4個文件,分別爲config,id_r