原创 規則學習鏈接

https://blog.csdn.net/tonydz0523/article/details/84673793    

原创 Spark-SQL-Python編程

使用Pycharm來實現Spark-SQL。 from pyspark import Row from pyspark.sql import SparkSession from pyspark.sql.types import Stru

原创 SQL-DQL

我們在MySQL和Spark-SQL使用過程中,常用的DQL如下。 // 查詢 SELECT xx FROM table; SELECT * FROM table; SELECT DISTINCT xx FROM table; //

原创 Spark-SQL-Scala編程

使用Scala語言編程例程: 方式一:通過 case class 創建 DataFrames(反射) //定義case class,相當於表結構 case class People(var name:String,var age:In

原创 Spark-SQL-Java編程

認識:最核心的編程抽象就是DataFrame。 原理:將Spark SQL 轉化爲 RDD, 然後提交到集羣執行。 SparkSession:統一的切入點,實質上是SQLContext和HiveContext的組合。允許用戶通過它調用 D

原创 spark實踐

最權威的官網:http://spark.apache.org/ --master // master 的地址,提交任務到哪裏執行,例如 spark://host:port, yarn, local --deploy-mode /

原创 PySpark實踐

大數據入門與實戰-PySpark的使用教程:https://www.jianshu.com/p/5a42fe0eed4d PySpark – SparkContext class pyspark.SparkContext ( ma

原创 Spark集羣配置

重要參考文獻:http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/ 準備工作 操作系統:Ubuntu-14.04.1-desktop-amd64 Hadoop 版本

原创 Spark - 初理解

計算引擎Spark是什麼? 專爲大規模數據處理的快速通用的計算引擎(基於MapReduce算法實現的分佈式計算)。   Spark特性 高級 API,可以更多精力專注於應用所要做的計算本身。Spark 提供了80多個高級運算符。 快,支持

原创 AI基礎原理篇(一)

人工智能基礎總結 歷史: 1950:圖靈測試,機器智能的度量 1956 - 1974:黃金髮展期 1956:會議,AI研究領域誕生 1958:第一個AI程序,邏輯理論家(LT) 1965:醫學診斷方法程序 1974 - 1980:第一個冬

原创 CDN - 初理解

CDN背景: 傳統模式下,用戶的URL請求由DNS域名解析,直接得到相應源站的IP地址,獲取內容。源站在內容交付過程中,尤其是在相應大規模併發請求的情況下,由於源站本身資源受限,導致網絡阻塞、相應速度緩慢的現狀。相應的解決方案是:構建內容

原创 Hadoop - 初理解

Hadoop是什麼? 大量數據進行分佈式處理的軟件框架,存儲HDFS和計算Map/Reduce,像使用單機一樣使用分佈式,用戶可以不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力高速計算和存儲。   Hadoop背景與現狀