原创 BI可視化產品概述(一)

    目前市面比較流行的可視化工具:tableau,FineBI,powerBI,Smart BI,IBM Cognos,永洪BI,等,其中對於三個產品tableau,FineBI,IBM Cognos,調研和使用過,對着三個產品做個簡

原创 spark與hadoop生態圈(一)

Spark是一個開源計算框架,開發者藉助於其API編寫分佈式應用來使用集羣資源,無須關心底層的分佈;它支持各種工作負載,包括批處理、流式計算、商業智能分析、圖形計算、以及機器學習。 爲什麼使用spark 可編程性:MapReduce需要幾

原创 FineReport的介紹(三)

FineReport FineReport 是帆軟自主研發的企業級 web 報表工具,經過多年的打磨,已經成長爲中國報表軟件領導品牌。 FineReport 以其零編碼的理念,易學易用,功能強大,簡單拖拽操作便可製作中國式複雜報表, 輕鬆

原创 BI產品的使用和問題解決(二)

  現階段各行各業在使用數據進行查詢分析基本都是通過前端業務人員與信息部IT人員溝通,向他們解釋具體的業務流程,然後IT人員再根據業務流程來獲取數據建立模板這樣一個流程來完成的。隨着信息化的長期發展,這樣一個使用流程的弊端越來越明顯,具體

原创 kylin使用時候出現的問題及處理方式(一)

文章主要針對在使用kyligence或者kylin時候出現的一些問題總結: 問題1 使用 Spark 構建報錯 "OutOfMemoryError of PermGen Space" 問題描述: 使用 Spark 構建報錯 java.la

原创 java的Stack講解及實現有效括號

java把內存劃分成兩種:棧內存/堆內存。函數中定義的基本類型的變量及對象的引用變量 都是在棧內存中分配,當代碼塊定義一個變量,java在棧中爲這個變量分配內存,當超過變量的作用域後,java會自動註釋掉爲該變量分配的內存空間。 堆內存:

原创 kylin的存儲目錄,及對應生成的cubeid的分析

kylin的存儲在hdfs的文件路徑:/kylin/ 查看命令:hadoop fs -du -h /kylin/           hadoop fs -du -h /kylin/kylin_testing/ 目錄如下:        

原创 sparkSQL的RDD轉換成DataFrame

1、爲什麼要將RDD轉換成DataFrame, 直接針對HDFS等任何可以構建爲RDD數據,進行SparkSQL的sql查詢 2、SparkSQL支持RDD轉換成DataFrame的方式如下: 1>反射方式; 2>通過編程接口創建Data

原创 kylin的總體概述及總結匯總

Kylin Cube構建原理解析 Apache Kylin 是什麼 Apache Kylin是一個開源的、基於Hadoop生態系統的OLAP引擎(OLAP查詢引擎、OLAP多維分析引擎),能夠通過SQL接口對十億、甚至百億行的超大數據集實

原创 spark的安裝集運行模式(二)

Spark安裝: 配置path的環境的java和python(不在敘述,不會上網查找); 官網下載spark的包; Wegt 命令下載;tar -xvf sparkxxx.jar 4、mkdir -p /opt/mySpark   mv

原创 CDH搭建的節點環境準備(一)

                                   Hadoop的平臺搭建 搭建大數據的分佈式平臺的環境準備 虛擬機環境(vm)、centos7.0(/centos6.5);   centos7.0(/centos6.5

原创 Scala各類符號介紹(一)

scala的各種符號含義 1、:::運算符號,表示的是List的連接操作,比如: val a=List(1,2);val b=List(3,4) val c=a:::b; 代替了java中的add方法; 2、::表示普通元素和List的連

原创 spark的任務提交後臺提交實例(五)

//本地模式,如果時集羣模式需要啓動master和worknode ./bin/spark-submit --class com.package.test.app.demo01//直接是對象名稱 --deploy-mode cluster

原创 spark的配置方式及端口介紹(四)

saprk配置信息使用的三種方式: 1、代碼中使用SparkConf來配置; 2、在提交時候使用--conf來配置 spark-submit --master --conf k=v 如果要設置多個配置信息的值,需要使用多個–conf; 3