原创 Hive 基本指令

1、show databases; 查看都有哪些數據庫 hive> show databases; OK default Time taken: 0.141 seconds, Fetched: 2 row(s) hive> 2

原创 22 - Spark - map 算子

RDD的轉換 RDD整體上分爲Value類型和Key-Value類型 map(func)案例 作用:返回一個新的RDD,該RDD由每一個輸入元素經過func函數轉換後組成 需求:創建一個1-10數組的RDD,將所有元素*2形成新

原创 26 - Spark - flatMap算子

flatMap(func) 案例 作用:類似於map,但是每一個輸入元素可以被映射爲0或多個輸出元素(所以func應該返回一個序列,而不是單一元素) 需求:創建一個元素爲1-4的RDD,運用flatMap創建一個新的RDD i

原创 24 - Spark - mapPartitionsWithIndex算子

mapPartitionsWithIndex(func) 案例 作用:類似於mapPartitions,但func帶有一個整數參數表示分片的索引值,因此在類型爲T的RDD上運行時,func的函數類型必須是(Int, Intera

原创 31 - Spark - coalesce算子

coalesce(numPartitions) 案例 作用:縮減分區數,用於大數據集過濾後,提高小數據集的執行效率。 需求:創建一個4個分區的RDD,對其縮減分區 package com.dark.spark.SparkStu

原创 Spark快速大數據分析——第四章鍵值對操作——Pair RDD的行動操作

Pair RDD的行動操作 val conf = new SparkConf().setMaster("local").setAppName("PairRDD") val sc = new SparkContext(con

原创 13 - Spark -獨立部署方式

一、配置 1、修改slave文件,添加work節點 master slave1 slave2 2、修改spark-env.sh文件,添加如下配置: SPARK_MASTER_HOST=master SPARK_MASTER_PO

原创 Scala學習--基礎語法

一、Hello, world object Hello extends App { println("Hello, world") } 1、兩種類型的變量 Scala有兩種類型的變量: val是一個不可變的變量(例如fina

原创 Hive SQL練習之影評案例

找的練習hive,內容非原創鏈接 https://www.cnblogs.com/frankdeng/p/9309668.html 一、建表,導入數據 1、建表 [root@master hadoop]# hive Logg

原创 29 - Spark - sample算子

sample(withReplacement, fraction, seed) 案例 作用:以指定的隨機種子隨機抽樣出數量爲fraction的數據,withReplacement表示是抽出的數據是否放回,true爲有放回的抽樣,

原创 28 - Spark - groupBy&filter算子

groupBy(func)案例 作用:分組,按照傳入函數的返回值進行分組。將相同的key對應的值放入一個迭代器。 需求:創建一個RDD,按照元素模以2的值進行分組。 package com.dark.spark.SparkSt

原创 27 - Spark - glom算子

glom案例 作用:將每一個分區形成一個數組,形成新的RDD類型時RDD[Array[T]] 需求:創建一個4個分區的RDD,並將每個分區的數據放到一個數組 package com.dark.spark.SparkStuden

原创 Python網絡爬蟲實例教程——第2章 爬蟲基礎

2.1 認識HTTP請求 2.1.1 HTTP請求的含義 2.1.2 HTTP請求信息 1. 請求方法 2. 請求頭部 2.2 爬蟲基礎-Requests庫入門 2.2.1 Requests庫的安裝 2.2.2 Reques

原创 本地連接VMware Workstation 虛擬機

一、設置虛擬機網絡連接模式,NAT模式 二、編輯—>虛擬網絡編輯器,取消DHCP服務(通過管理員權限,來取消設置) 三、設置網關地址 四、在虛擬機中設置IP屬性 [root@node1 ~]# vi /etc/sysconf

原创 Python網絡爬蟲實例教程——第3章 網頁解析基礎

3.3 抓取百度首頁實例–XPath import requests from lxml import etree # headers 頭部信息 headers = {'User-Agent': 'Mozilla/5.0 (Wi