原创 Win10-Anaconda中修改jupyter起始目錄

1、打開當前環境 cmd 2、輸入,查看jupyter位置 jupyter notebook --generate-config 3、編輯文件,搜索c.NotebookApp.notebook_dir = ,修改爲jupyt

原创 華爲雲-鯤鵬集羣-大數據環境搭建

本環境搭建是在,可參考 華爲雲——數字中國創新大賽·鯤鵬賽道·天府賽區暨四川鯤鵬應用開發者大賽 1 環境搭建準備 本文詳細描述了在華爲雲鯤鵬生態下的 BigData Pro 解決方案實驗手段, 涵蓋集羣搭建 及驗證, 本指導手

原创 第2章 爬蟲基礎

1、HTTP請求 1.1 請求方法 1.2 請求頭部 2、爬蟲基礎-Requests庫入門 2.1 Requests庫的安裝 2.2 Requests庫的請求方法 import requests # get 獲取 respo

原创 23 - Spark -mapPartitions算子

RDD的轉換 RDD整體上分爲Value類型和Key-Value類型 flatMap(func) 案例 作用:類似於map,但獨立地在RDD的每一個分片上運行,因此在類型爲T的RDD上運行時,func的函數類型必須是Iterat

原创 30 - Spark - distinct算子

distinct([numTasks])) 案例 作用:對源RDD進行去重後返回一個新的RDD。默認情況下,只有8個並行任務來操作,但是可以傳入一個可選的numTasks參數改變它。 需求:創建一個RDD,使用distinct(

原创 20 - Spark - RDD的創建(內存&外部存儲)

第1章 RDD概述 1.1 什麼是RDD RDD(Resilient Distributed Dataset)叫做分佈式數據集,是Spark中最基本的數據抽象。代碼中是一個抽象類,它代表一個不可變、可分區、裏面的元素可並行計算的集

原创 21 - Spark - RDD的分區

關於Spark RDD 的分區的一些問題 虛擬機配置 2處理器16核 案例一 makeRDD 運行代碼 import org.apache.spark.{SparkConf, SparkContext} object Spa

原创 09 - Spark - 將Spark程序部署到Yarn中運行

一、啓動hadoop 二、修改hadoop配置文件yarn-site.xml,並分發到節點 <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>fa

原创 04 - Spark基礎解析 - 軟件安裝&使用

一、上傳並解壓spark安裝包 [root@master]# tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local/src/ [root@master spark]# pwd

原创 05 - Spark - WordCount思路

一、Spark運行WordCount 1、創建input文件夾 [root@master spark]# pwd /usr/local/src/spark [root@master spark]# mkdir input 2、

原创 Hadoop 安裝配置及下載地址

使用安裝包版本: hadoop-2.6.0.tar.gz 下載地址 https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.0/hadoop-2.10.0-s

原创 Sqoop 安裝配置及下載地址

使用安裝包版本: sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 下載地址 http://www.apache.org/dyn/closer.lua/sqoop/ 一.簡介 Sqoop是一種旨在在Hado

原创 Spark快速大數據分析——第四章鍵值對操作——Pair RDD的轉化操作

鍵值對 Pair RDD 轉化操作 val conf = new SparkConf().setMaster("local").setAppName("PairRDD") val sc = new SparkContext

原创 mysql-5.7.12-1.el6.x86_64.rpm-bundle.tar

使用tar -xvf [root@master app]# mkdir /usr/local/src/mysql [root@master app]# tar -zxvf mysql-5.7.12-1.el6.x86_64.rpm

原创 Kafka 安裝配置及下載地址

Apache Kafka 概述 在大數據中,使用了大量的數據。 關於數據,我們有兩個主要挑戰。第一個挑戰是如何收集大量的數據,第二個挑戰是分析收集的數據。 爲了克服這些挑戰,您必須需要一個消息系統。 Kafka專爲分佈式高吞吐量