原创 Flume詳細解析
本文特別緻謝參考文檔,在理解基礎上加以整理,分享給更多需要的人 1、Flume簡介 Apache flume是一個分佈式、可靠、和高可用的海量日誌採集、聚合和傳輸的系統,用於有效地收集、聚合和將大量日誌數據從許多不同的源移
原创 kafka工作原理介紹
兩張圖讀懂kafka應用:Kafka 中的術語 broker:中間的kafka cluster,存儲消息,是由多個server組成的集羣。 topic:kafka給消息提供的分類方式。broker用來存儲不同topic的消息數據。 pro
原创 爲普通用戶賦予sudo權限(Linux)
1、爲系統增加新賬戶: 新建用戶xxx,主目錄爲/home/xxx,如果該目錄不存在則建立 useradd -d /home/xxx -m xxx 將xxx用戶加到root組 usermod -a -G root 2、sudo功能的配置文
原创 centos7下解壓縮與跨服務器傳輸文本那些事兒
1、幾個查詢軟件是否安裝的命令: 查看rpm -qa 是查看該軟件是否被安裝 grep和find是查看文件位置centos7查看ip: ifconf -a 2、跨服務器文件傳輸: scp是secure copy的簡寫,用於在Linux下
原创 centos7下postgresql9.6安裝
////保存爲草稿重新編輯時圖片無故失蹤(有機會再次安裝的話補上)//// 體會過小白linux下安裝postgresql的痛苦,故有此文。 1、查看數據庫是否已安裝:rpm -qa | grep postgres命令查詢。 2、若已經
原创 數據庫三大範式以及各種鍵值
在關係型數據庫中建立科學的,規範的的數據庫是需要滿足一些規範的來優化數據數據存儲方式就可以稱爲範式。 直接進入主題: 三大範式: 第一範式:當關系模式R的所有屬性都不能在分解爲更基本的數據單位時,稱R是滿足第一範式的,簡記爲1NF
原创 spark處理hive數據排序問題
新入坑數據挖掘,從一段spark入門級數據處理代碼開始。 涉及語言Scala、Sql,並涉及將DataFrame轉換爲Rdd,實現的是從hive讀取數據,並根據字段進行分組排序的功能,代碼如下: val df_sr = spark.s
原创 大數據研發工程師面試題記錄
1、10進制轉2進制 def tansform(num): s=[] if num<0: return "-"+transform(abs(num))) while True:
原创 hive數據處理及hdfs文件操作
寫在前面: 本想使用hive調用python腳本實現統計分析movielens數據,但是最後一步調用腳本的地方不成功沒找到問題所在,於是將過程中的一些經驗寫出來,非常詳盡,對新手來說應該挺有用的。 另外調用腳本的程序和報錯我會貼出來,應
原创 數據庫優化大全
數據庫優化神文,全而細:轉載不便點擊這裏鏈接在這裏: 數據庫SQL優化大總結1之- 百萬級數據庫優化方案
原创 這麼經典全面的java崗面試題不瞭解下?
Java面試的一些題目,個人覺得很經典轉過來了,答案准備自己找,保證質量所以貼個原創不斷更新,當然也可以去原文找。 題目區: Java基礎: 面向對象和麪向過程的區別 Java的四個基本特性(抽象、封裝、繼承,多態) Overload和
原创 win10下kettle7.1連接hive1,mysql完整實例
最近想要在windows10上使用kettle做數據ETL,首先安裝配置作爲新手也是踩坑無數,主要環境版本目前不是本人能夠修改的,而kettle這東西對版本對應要求又比較嚴格,雖然只是連接就已經踩坑無數,主要問題集中在連接hive的時候,
原创 hdfs數據遷移至hbase(python2.7版本)
慣例直接上詳細註釋的代碼。 任務是將HDFS上多個需要重新編碼的文件合併後寫入HBASE。 python2.7完成,用3的話可能需要改hbase.py的一些源碼。 # -*- coding: utf-8 -*- """ Create
原创 sqoop將hive中數據導入mysql(實例講解)
假設這樣一個場景: 數據已經導入hive(hive實例講解看這裏),現在要把hive中數據庫導入出到(mysql)關係型數據庫中,這裏使用的工具是sqoop(sqoop詳細講解看這裏)。 該怎麼處理呢? 首先,我們需要的是在mysq
原创 zoopkeeper工作機制及原理
1、什麼是zoopkeeper ? ZooKeeper是一種爲分佈式應用所設計的高可用、高性能且一致的開源協調服務。 2、爲什麼要使用zoopkeeper? (順序一致性)從同一個客戶端發起的事務請求,最終將會嚴格按照其發起順序被應用