原创 Scala語言學習之環境安裝(1)
==> Scala語言簡介 --> Scala編程語言抓住了很多開發者的眼球。如果你粗略瀏覽Scala的網站,你會覺得Scala是一種純粹的面向對象編程語言,而又無縫地結合了命令式編程和函數式編程風格 --> 不
原创 Storm 環境部署及簡單使用
===> 什麼是 Storm? --> Twitter將Storm正式開源了,這是一個分佈式的、容錯的實時計算系統,遵循 Eclipse Public License 1.0。 --> Storm是由BackTy
原创 Spark SQL性能優化
==> 在內存中緩存數據 ---> 性能調優主要是將數據放入內存中操作 ---> 使用例子:// 從 Oracle 數據庫中讀取數據,生成 DataFrame val oracleDF = spark.read.format("
原创 Spark 簡介
==> 什麼是 Spark ---> Spark 是一個針對大規模數據處理的快速通用引擎 ---> Spark 是 MapReduce 的替代方案,而且兼容 HDFS, Hive, 可容入Hadoop 的生態系統,彌補 MapR
原创 Spark 算子
==> RDD是什麼? ---> RDD(Resilient Distributed Dataset) 彈性分佈式數據集 , 是 Spark 中最基本的數據抽象,它代表一個不可變,可分區,裏面的元素可並行計算的集合 ---> 特
原创 Parquet介紹及簡單使用
==> 什麼是parquet Parquet 是列式存儲的一種文件類型==> 官網描述: Apache Parquet is a columnar storage format available to
原创 SparkSQL簡單使用
==> 什麼是 Spark SQL? ---> Spark SQL 是 Spark 用來處理結構化數據的一個模塊 ---> 作用:提供一個編程抽象(DataFrame) 並且作爲分佈式 SQL 查詢引擎 ---> 運行原理
原创 Scala 語言學習之泛型(7)
==> 泛型類 ---> T 可以代表任意類型class Person[T]{ private var name:T = _ def setName(name:T) = {this.name = name} de
原创 Spark 環境部署
==> Spark 集羣體系結構 ---> ==> Spark安裝與部署 Spark 的安裝部署有四種模式:Standalone, YARN, Mesos, Amazon EC2, 這裏主要講解Standalone
原创 用 ipdb 調試 Python 程序
==> 安裝 pip install ipdb==> 使用 ---> python -m ipdb xxx.py 程序內部: from ipdb import set_trace set_trace()==> 常用命令ENTER(
原创 pycharm 遠程執行服務器代碼控制檯輸出亂碼問題
==> 第一步:設置本地環境變量 ----> 修改pycharm.exe.vmoptions文件, 添加 -Dfile.encoding=UTF-8 將本地環境設置爲UTF-8 ==> 第二步: 設置 File Encodings
原创 使用 Scala 寫WordContext程序
package mydemo import org.apache.spark.{SparkConf, SparkContext} object MyWordContextDemo { def main(args: Array[Str
原创 git 創建本地倉庫與 gitcafe 關聯
git init # 創建本地倉庫 # 設置遠程倉庫地址,這裏可以設置ssh 或 https 的形式,此處設置爲https 格式, # ssh 格式爲 : git remote
原创 Scala語言之高階函數(4)
==> 常用函數講解 ---> map 作用於列表中的每一個元素// 定義一個列表 val list= List(1,2,3,4,5,6,7,8,9) // list 列表中的所有元素乘以2 list.map((i:I
原创 redhat7.4修改yum 源爲CentOS網易yum源
# 創建目錄 mkdir /data/tools/centos_yumcd /data/tools/centos_yum# 下載軟件包,若地址不對,到此網站上找http://mirrors.163.com/centos/7/os/x86_6