台部落挽歌亽朽年

Spark的出現 Apache Spark: 1.一個大規模數據處理同一分析引擎 2.最初由美國加州破殼利大學的AMP實驗室開發 3.基於內存計算的大數據並行計算框架 4.用於構建大型的、低延遲的數據分析應用程序 Spark的特點

2020-02-21 20:02:46

Spark shell: 提供了一個強大的交互式分析數據的工具，我們可通過Scala或Python語言來使用 pyspark 在啓動時便會自動生成一個驅動器程序，所以只需要在Spark shell中輸入項運行的操作就可以了 pys

2020-02-21 20:02:46

顯示錶的相關信息：show table status like ‘表名’ \G Name : 表名 Engine ：表的存儲引擎類型 Row_format ：行的格式 Rows ：表中的行數 Avg_row_length ：平均

2020-02-21 20:02:46

RDD概述 RDD既彈性分佈式數據集，是Spark主要的編程抽象 RDD作爲數據結構，本質上是一個只讀的分區（partition）記錄集合一個RDD可以包含多個分區，每個分區就是一個dataset片段 RDD編程接口 Spar

2020-02-21 20:02:46

1.2WHERE語句 select語句用於選取字段，WHERE語句用於過濾條件，兩者結合使用可以查找到符合過濾條件的記錄可以使用AND和OR相連接，當謂詞表達式計算結果爲true時，相應的行將被保留並輸出 select * fr

2020-02-21 20:02:46

import urllib.request import urllib.parse import json def getHtml(url): #僞裝瀏覽器 headers = {‘User-Agent’: ‘Mozilla/5.

2020-02-21 20:02:46

函數與方法函數是功能代碼的封裝方法是定義在類中的函數函數定義 def 函數名（參數名:參數類型,…）：函數的返回值{函數體} 注意： 1.函數用關鍵字def來定義 2.函數的參數必須給定數據類型 3.函數的返回值爲其他數據類

2020-02-21 20:02:46

MySQL的定義 MySQL並不完美，但它足夠靈活，可以適應高要求環境。同時MySQL既可以嵌入到應用程序中，也可以支持數據倉庫、內容索引和、部署軟件、高可用的沉餘系統、在線事務處理系統（OLTP）等各種應用類型。 MySQL

2020-02-21 20:02:46

百度翻譯數據採集 import urllib.request import urllib.parse import json def gethtml(url): # 僞裝瀏覽器 headers = {‘User-Agent’:‘M

2020-02-21 20:02:46

內部表： –僅限HIVE內部使用每個Hive內部表在HDFS中都有對應目錄用來存儲表的數據。“/user/hive/warehouse/數據庫名“下生成表的目錄，創建時數據會移動到數據倉庫所指向的位置內部表的創建過程和數據加

2020-02-21 20:02:46

導入數據的方法： 1從本地系統導入數據 1.1load data local inpath ‘/bigdata/1.txt’ overwrite into table extaljsk; 此處使用的是LOCAL，表示從本地文件系統

2020-02-21 20:02:46

數據類型的定義：數據在內存中的表現形式，不同的數據類型在內存中的存儲方式是不同的，在內存中所佔的字節數也是不同的數據類型：基本類型構造類型指針類型空類型 void 基本類型：整型 int

2020-02-21 20:02:46

1.查看錶的詳細屬性信息【desc formatted】 hive> desc formatted 表名; OK 2.重命名錶【Rename To】 對於內部表，除了更新表的元數據之外，還對錶的目錄名稱進行修改。 對於外部

2020-02-21 20:02:46

什麼是Python： python是一種編程語言，它有對象、模塊、線程、異常處理和自動內存管理。它簡潔，簡單、方便、容易擴展、有許多自帶的數據結果，而且它開源 Python優缺點優點：優美、清晰、簡單高級語言開發效率

2020-02-21 20:02:46

C語言發展史 1963年劍橋大學將ALG 60 發展成CPL語言 1967劍大的（馬丁理查德）對CPL語言簡化，產生BCPL語言 1970美國貝爾實驗室（肯湯姆森）將BCPL精華提煉 B語言 1973美國貝爾實驗室（丹尼斯瑞切）在

2020-02-21 20:02:46