原创 Spark中RDD轉換算子以及案例

1 Spark核心編程 Spark計算框架爲了能對數據進行高併發和搞吞吐的處理,封裝了三大數據結構,分別是: RDD:彈性分佈式數據集 累加器:分佈式共享只寫變量 廣播變量:分佈式共享只讀變量 1.1 RDD 代表是一個彈性的

原创 rdd案例:排行的top3計算

需求:統計出每一個省份每個廣告被點擊數量排行的Top3 package com.baidu.exer import org.apache.spark.{SparkConf, SparkContext} import org.ap

原创 selenium中OSError: [WinError 6] 句柄無效。

可以先選擇關閉driver的時候 , 使用 driver.quit()代替 driver.close() close:只會關閉焦點所在的當前窗口 quit:會關閉所有關聯的窗口 所以推薦使用quit 。

原创 Scala知識點

一 變量和數據類型 數據類型 Scala是完全面向對象的語言,只有任意值對象(AnyVal)和任意引用對象(AnyRef) 類型轉換 強制類型轉換 var a : Int = 10 Var b : Byte = a.toByt

原创 Spark中核心組件的基本知識

1 運行架構 Spark框架的核心是一個計算引擎,採用標準的master-slave的結構,圖中的Driver表示master,負責整個集羣的作業任務調度,Executor則是slave,負責實際執行任務 2 核心組件 2.1

原创 Spark部署

1 Spark概述 Spark是一種基於內存的快速,通用,可擴展的大數據分析計算引擎 1.1 核心模塊 Spark Core: 提供了Spark最基礎與最核心的功能 Spark SQL: 是Spark用來操作結構化數據的組件。通過

原创 python 測試框架selenium不能調用的問題

selenium3.x開始需要在python的運行目錄增加一個程序: geckodriver.exe 裝在你的python運行目錄下 github鏈接:https://github.com/mozilla/geckodriver

原创 python複習基本知識

python複習基本知識 print(x or y) """x or y ; x 爲 true ,則返回x ,否則返回flase“”“” and 則相反 優先級比較:not > and > or   s = s[0:5:2] #

原创 python第三方庫mssql

連接sql server數據庫 #服務器名,賬戶,密碼,數據庫名 connect = pymssql.connect('DESKTOP-2THAEPB\ZZULI', 'sa', 'zzuli427898', 'zzuli') c

原创 2141:2333(zznuoj)

2141:2333(zznuoj) 2141: 2333 時間限制: 1 Sec  內存限制: 128 MB提交: 77  解決: 17[提交] [狀態] [討論版] [命題人:admin] 題目描述 “別人總說我瓜,其實我一

原创 筆趣網小說試爬

import requests from lxml import etree url = "http://www.cits0871.com/booktxt/20768/" file_name = '第一序列.txt' res =

原创 斐波拉契博弈

斐波拉契博弈 取石子游戲 Problem Description 1堆石子有n個,兩人輪流取.先取者第1次可以取任意多個,但不能全部取完.以後每次取的石子數不能超過上次取子數的2倍。取完者勝.先取者負輸出"Second win

原创 hadoop完全分佈式(雲服務器版)

使用的是三臺雲服務器,兩臺騰訊雲,一臺華爲雲,使用的系統爲centos6.8 遇到的坑有點多,所以記錄下來,防止自己忘記,也給大家一個參考 前期準備 hadoop和jdk的tar解壓 jdk和hadoop的環境變量配置 vi

原创 利用IDEA自動部署tomcat項目

點贊 收藏 分享 文章舉報 zzulikang 發佈了104 篇原創文章 · 獲贊 4 · 訪問量 7192 私信

原创 Linux版Mysql的使用

首先下載server和client的rpm文件 安裝客戶端 rpm -ivh MySQL-client-5.5.54-1.linux2.6.x86_64.rpm 安裝服務器端 rpm -ivh MySQL-server-5.5.