原创 spark持久化

日常開發中每次讀取大文件都比較費時費力,而每次的重複讀取都是資源的浪費,針對這些問題spark也提供了持久化的解決方案,幫助我們解決諸如此類的效率問題,先來看一段我搜集到的資料: RDD 持久化 Spark 中一個很重要的能力是將數據持久

原创 spark算子練習題-靈活使用常用算子1

spark裏雖然算子衆多,雖然不要求全部掌握,但是對於常用算子還是需要爛熟於心靈活運用,對於kv格式的RDD(Tuple2)則需要全部掌握否則對於數據的處理就沒辦法做了,針對這個情況可以自己找一些網上的spark練習題,然後用java的方

原创 springboot使用jasypt增加應用安全性

無論任何開發安全問題也是我們應該考慮的部分,除了數據接口層面的安全性,數據庫用戶名密碼等敏感信息也是需要考慮安全問題,日常開發中大多數也習慣寫明文,這樣如果代碼泄露數據庫也面臨較大威脅,本次將分享數據庫用戶名、密碼如何在springboo

原创 SparkSql使用入門

Spark SQL是spark套件中一個模板,它將數據的計算任務通過SQL的形式轉換成了RDD的計算,類似於Hive通過SQL的形式將數據的計算任務轉換成了MapReduce。 Spark SQL的特點: 1、和Spark Core的無縫

原创 SparkSql讀取csv實現統計功能

前面已經介紹過有關sparksql讀取json文件取得DataSet的功能,但實際開發中除了json外還可以使用csv、數據庫等作爲sparksql的數據源,因爲csv日常開發也用的很多所以藉此機會把我的學習代碼分享給大家 一 關於csv

原创 spark理論之運行模式

spark相比hadoop做了很多方面的優化,同時spark的job也支持提交到hadoop的yarn進行處理,同時也有屬於自己的一套資源調度框架standalone.同時也支持其他常用的資源調度框架。 Spark運行模式 Loca

原创 spark算子知識整理2

前面有關RDD的理論已經說過其中一點就是RDD是由一系列的分區組成,所以RDD也提供了和分區相關的一系列算子,這次需要整理的是分區迭代器、重設分區以及countByKey、groupByKey等算子 package com.debug;

原创 spark2.4的安裝和基本使用

安裝之前我們先來看看資料上對spark的一些解釋: Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop

原创 java線程之Executor框架與線程池

線程雖然在web開發中用的不算特別多,但在特定的情況下還是能發揮重要重要作用的,因此即使用的少還是掌握下比較好;下面先回顧下比較線程的常規實現方法 1 繼承Thread類 2 實現runnable接口(使用較多) java5之後有了新的線

原创 spring boot或springmvc返回時把date類型的字段轉成字符串

我們都知道spring boot或者springmvc可以藉助自帶的jackson直接把實體對象裝成json,這次不是分享關於框架如何返回json,而是要給大家分享實體類裏的date類型的字段在返回時怎麼統一處理成統一返回成string類

原创 Spark使用parallelize方法創建RDD以及map、flatmap的區別

spark創建RDD常用的方法有兩個分別是parallelize、parallelizePairs,parallelize用來生成普通格式的RDD,parallelizePairs用來生成kv格式的RDD package com.deb

原创 spark算子知識整理1

上一次分享提到的map、flatmap都歸屬於轉換算子,foreach則屬於Action算子;由於算在在spark中較爲重要後續幾次都是分享算子相關的東西,先來看一段代碼 package com.debug; import org.a

原创 spark核心RDD的介紹和字數統計案例

RDD是spark的核心和重要組成,spark內部提供了豐富的算子供我們使用,節省了開發時間使得開發更爲高效,從而讓我們專注業務邏輯。因爲spark豐富的算子使得它更適用於需要複雜計算的業務場景。這次將會分享一些關於RDD的概念和理論以及

原创 go語言操作mysql數據庫

Golang要操作mysql數據庫,首先需要在當期系統配置GOPATH,因爲需要使用go get命令把驅動包下載到GOPATH下使用。首先配置好你的GOPATH,執行以下命令,下載安裝mysql驅動,下載完成之後會在GOPATH下的src

原创 python開發之web篇-flask框架操作mysql數據庫

一  數據庫連接 from flask import Flask, render_template from flask_sqlalchemy import SQLAlchemy # import pymysql app = Flas