台部落dlphay

https://blog.csdn.net/tonydz0523/article/details/84673793

2019-09-19 23:25:15

使用Pycharm來實現Spark-SQL。 from pyspark import Row from pyspark.sql import SparkSession from pyspark.sql.types import Stru

2019-08-23 00:02:07

我們在MySQL和Spark-SQL使用過程中，常用的DQL如下。 // 查詢 SELECT xx FROM table; SELECT * FROM table; SELECT DISTINCT xx FROM table; //

2019-08-10 01:07:51

使用Scala語言編程例程：方式一：通過 case class 創建 DataFrames（反射） //定義case class，相當於表結構 case class People(var name:String,var age:In

2019-08-08 00:40:44

認識：最核心的編程抽象就是DataFrame。原理：將Spark SQL 轉化爲 RDD，然後提交到集羣執行。 SparkSession：統一的切入點，實質上是SQLContext和HiveContext的組合。允許用戶通過它調用 D

2019-08-08 00:40:44

最權威的官網：http://spark.apache.org/ --master // master 的地址，提交任務到哪裏執行，例如 spark://host:port, yarn, local --deploy-mode /

2019-08-05 23:58:47

大數據入門與實戰-PySpark的使用教程：https://www.jianshu.com/p/5a42fe0eed4d PySpark – SparkContext class pyspark.SparkContext ( ma

2019-08-05 23:58:47

重要參考文獻：http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/ 準備工作操作系統：Ubuntu-14.04.1-desktop-amd64 Hadoop 版本

2019-08-01 00:55:48

計算引擎Spark是什麼？專爲大規模數據處理的快速通用的計算引擎（基於MapReduce算法實現的分佈式計算）。 Spark特性高級 API，可以更多精力專注於應用所要做的計算本身。Spark 提供了80多個高級運算符。快，支持

2019-07-31 01:58:45

人工智能基礎總結歷史： 1950：圖靈測試，機器智能的度量 1956 - 1974：黃金髮展期 1956：會議，AI研究領域誕生 1958：第一個AI程序，邏輯理論家（LT） 1965：醫學診斷方法程序 1974 - 1980：第一個冬

2019-07-31 01:58:45

CDN背景：傳統模式下，用戶的URL請求由DNS域名解析，直接得到相應源站的IP地址，獲取內容。源站在內容交付過程中，尤其是在相應大規模併發請求的情況下，由於源站本身資源受限，導致網絡阻塞、相應速度緩慢的現狀。相應的解決方案是：構建內容

2019-07-31 01:58:45

Hadoop是什麼？大量數據進行分佈式處理的軟件框架，存儲HDFS和計算Map/Reduce，像使用單機一樣使用分佈式，用戶可以不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集羣的威力高速計算和存儲。 Hadoop背景與現狀

2019-07-31 01:58:45