原创 Spark的核心組件

Spark的出現 Apache Spark: 1.一個大規模數據處理同一分析引擎 2.最初由美國加州破殼利大學的AMP實驗室開發 3.基於內存計算的大數據並行計算框架 4.用於構建大型的、低延遲的數據分析應用程序 Spark的特點

原创 運行Spark程序的方法

Spark shell: 提供了一個強大的交互式分析數據的工具,我們可通過Scala或Python語言來使用 pyspark 在啓動時便會自動生成一個驅動器程序,所以只需要在Spark shell中輸入項運行的操作就可以了 pys

原创 顯示錶的相關信息

顯示錶的相關信息 :show table status like ‘表名’ \G Name : 表名 Engine :表的存儲引擎類型 Row_format :行的格式 Rows :表中的行數 Avg_row_length :平均

原创 Spark RDD編程

RDD概述 RDD既彈性分佈式數據集,是Spark主要的編程抽象 RDD作爲數據結構,本質上是一個只讀的分區(partition)記錄集合 一個RDD可以包含多個分區,每個分區就是一個dataset片段 RDD編程接口 Spar

原创 HiveQL查詢2

1.2WHERE語句 select語句用於選取字段,WHERE語句用於過濾條件,兩者結合使用可以查找到符合過濾條件的記錄 可以使用AND和OR相連接,當謂詞表達式計算結果爲true時,相應的行將被保留並輸出 select * fr

原创 肯德基網頁的爬取

import urllib.request import urllib.parse import json def getHtml(url): #僞裝瀏覽器 headers = {‘User-Agent’: ‘Mozilla/5.

原创 函數

函數與方法 函數是功能代碼的封裝 方法是定義在類中的函數 函數定義 def 函數名(參數名:參數類型,…):函數的返回值{函數體} 注意: 1.函數用關鍵字def來定義 2.函數的參數必須給定數據類型 3.函數的返回值爲其他數據類

原创 MySQL歷史和框架1

MySQL的定義 MySQL並不完美,但它足夠靈活,可以適應高要求環境。同時MySQL既可以嵌入到應用程序中,也可以支持數據倉庫、內容索引和、部署軟件、高可用的沉餘系統、在線事務處理系統(OLTP)等各種應用類型。 MySQL

原创 post練習

百度翻譯數據採集 import urllib.request import urllib.parse import json def gethtml(url): # 僞裝瀏覽器 headers = {‘User-Agent’:‘M

原创 hive的內部表與外部表

內部表: –僅限HIVE內部使用 每個Hive內部表在HDFS中都有對應目錄用來存儲表的數據。“/user/hive/warehouse/數據庫名“下生成表的目錄,創建時數據會移動到數據倉庫所指向的位置 內部表的創建過程和數據加

原创 導入數據的方法及視圖

導入數據的方法: 1從本地系統導入數據 1.1load data local inpath ‘/bigdata/1.txt’ overwrite into table extaljsk; 此處使用的是LOCAL,表示從本地文件系統

原创 數據結構

數據類型的定義:數據在內存中的表現形式,不同的數據類型在內存中的存儲方式是不同的,在內存中所佔的字節數也是不同的 數據類型:基本類型 構造類型 指針類型 空類型 void 基本類型: 整型 int

原创 hive

1.查看錶的詳細屬性信息 【desc formatted】 hive> desc formatted 表名; OK 2.重命名錶 【Rename To】 對於內部表,除了更新表的元數據之外,還對錶的目錄名稱進行修改。 對於外部

原创 Python的簡單概括

什麼是Python: python是一種編程語言,它有對象、模塊、線程、異常處理和自動內存管理。它簡潔,簡單、方便、容易擴展、有許多自帶的數據結果,而且它開源 Python優缺點 優點:優美、清晰、簡單 高級語言 開發效率

原创 C語言的發展史及特點

C語言發展史 1963年劍橋大學將ALG 60 發展成CPL語言 1967劍大的(馬丁理查德)對CPL語言簡化,產生BCPL語言 1970美國貝爾實驗室(肯湯姆森)將BCPL精華提煉 B語言 1973美國貝爾實驗室(丹尼斯瑞切)在