台部落软件手

1、打開當前環境 cmd 2、輸入，查看jupyter位置 jupyter notebook --generate-config 3、編輯文件，搜索c.NotebookApp.notebook_dir = ，修改爲jupyt

2020-05-26 02:41:08

本環境搭建是在，可參考華爲雲——數字中國創新大賽·鯤鵬賽道·天府賽區暨四川鯤鵬應用開發者大賽 1 環境搭建準備本文詳細描述了在華爲雲鯤鵬生態下的 BigData Pro 解決方案實驗手段，涵蓋集羣搭建及驗證，本指導手

2020-05-20 17:42:11

1、HTTP請求 1.1 請求方法 1.2 請求頭部 2、爬蟲基礎-Requests庫入門 2.1 Requests庫的安裝 2.2 Requests庫的請求方法 import requests # get 獲取 respo

2020-05-20 17:42:11

RDD的轉換 RDD整體上分爲Value類型和Key-Value類型 flatMap(func) 案例作用：類似於map，但獨立地在RDD的每一個分片上運行，因此在類型爲T的RDD上運行時，func的函數類型必須是Iterat

2020-03-11 19:14:07

distinct([numTasks])) 案例作用：對源RDD進行去重後返回一個新的RDD。默認情況下，只有8個並行任務來操作，但是可以傳入一個可選的numTasks參數改變它。需求：創建一個RDD，使用distinct(

2020-03-11 19:14:07

第1章 RDD概述 1.1 什麼是RDD RDD（Resilient Distributed Dataset）叫做分佈式數據集，是Spark中最基本的數據抽象。代碼中是一個抽象類，它代表一個不可變、可分區、裏面的元素可並行計算的集

2020-03-03 04:03:09

關於Spark RDD 的分區的一些問題虛擬機配置 2處理器16核案例一 makeRDD 運行代碼 import org.apache.spark.{SparkConf, SparkContext} object Spa

2020-03-03 04:03:09

一、啓動hadoop 二、修改hadoop配置文件yarn-site.xml，並分發到節點 <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>fa

2020-02-28 21:59:33

一、上傳並解壓spark安裝包 [root@master]# tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local/src/ [root@master spark]# pwd

2020-02-28 21:59:33

一、Spark運行WordCount 1、創建input文件夾 [root@master spark]# pwd /usr/local/src/spark [root@master spark]# mkdir input 2、

2020-02-28 21:59:33

使用安裝包版本： hadoop-2.6.0.tar.gz 下載地址 https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.0/hadoop-2.10.0-s

2020-02-24 19:15:21

使用安裝包版本： sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 下載地址 http://www.apache.org/dyn/closer.lua/sqoop/ 一.簡介 Sqoop是一種旨在在Hado

2020-02-24 19:15:21

鍵值對 Pair RDD 轉化操作 val conf = new SparkConf().setMaster("local").setAppName("PairRDD") val sc = new SparkContext

2020-02-24 19:15:21

使用tar -xvf [root@master app]# mkdir /usr/local/src/mysql [root@master app]# tar -zxvf mysql-5.7.12-1.el6.x86_64.rpm

2020-02-24 19:15:21

Apache Kafka 概述在大數據中，使用了大量的數據。關於數據，我們有兩個主要挑戰。第一個挑戰是如何收集大量的數據，第二個挑戰是分析收集的數據。爲了克服這些挑戰，您必須需要一個消息系統。 Kafka專爲分佈式高吞吐量

2020-02-24 19:15:21