原创 算法系列-動態規劃(2):切割鋼材問題

切割鋼材問題 接上回說到,斐波那契數列是動態規劃最簡單應用,但動態規劃卻不是爲了用來算那數列。 當時留了個尾巴,就是切割鋼材的問題。 不同長度的鋼材價格不一樣,我現在有一根長度爲n的鋼材,要怎麼切割才能利益最大化? 其中鋼材的價格如下

原创 算法系列-動態規劃(1):初識動態規劃

昨天,羅拉去面試回來,垂頭喪氣。顯然是面試不順利,我趕忙過去安慰。 經過詢問才知道,羅拉麪試掛在了動態規劃。 說到動態規劃,八哥可就來精神了,於是就結合勞拉的面試題簡單的和她介紹了動態規劃。 事情是這樣的,勞拉的面試官給了她一道題,題目如下

原创 hbase-spark bulk load(二)

概述 之前寫過spark批量導入Hbase的案例:Spark、BulkLoad Hbase、單列、多列,實現了多列的操作。整個過程涉及到排序、分解等操作相對複雜。 最近看官網的文檔,發現有兩種方法: 73節的Bulk Loading中的爲我

原创 flink idea運行錯誤記錄

最近學習flink的時候寫了最簡單的一個demo,但是在測試的時候出現問題: org.apache.flink.util.FlinkException: The TaskExecutor is shutting down.找了很久,也問了很

原创 flink 自定義觸發器 定時或達到數量觸發

flink 觸發器 觸發器確定窗口(由窗口分配程序形成)何時準備由窗口函數處理。每個WindowAssigner都帶有一個默認觸發器。 如果默認觸發器不適合需求,我們就需要自定義觸發器。 主要方法 觸發器接口有五種方法,允許觸發器對不同的事

原创 二叉樹的遍歷實現遞歸與非遞歸

本文實現了二叉樹的深度遍歷算法,分爲遞歸與非遞歸 遞歸的實現非常簡單,基本上沒啥難度 非遞歸的實現需要根據遍歷的順序,將遞歸轉換成循環 代碼中的二叉樹如下 遞歸 遞歸的實現很簡單,此處不做過多贅述 package cn.lillcol.

原创 VMware Workstation 添加磁盤 掛載目錄(centos)

參考文檔: Linux命令大全 需求:測試環境虛擬機某個目錄下空間不足,準備通過添加一塊磁盤,並將該目錄掛載到該磁盤 前面幾步在測試服務器上操作的,截圖困難,所以網上找了幾張設置圖 關閉虛擬機(沒測試過不關閉的情況) 虛擬機中添加一塊新的

原创 maven+scala+idea 環境構建

組建信息 組件 版本 下載地址 maven 3.6.1 https://maven.apache.org/ jdk jdk1.8.0 https://www.oracle.com/technetwork/java/java

原创 Spark 調優之數據傾斜

什麼是數據傾斜? Spark 的計算抽象如下 數據傾斜指的是:並行處理的數據集中,某一部分(如 Spark 或 Kafka 的一個 Partition)的數據顯著多於其它部分,從而使得該部分的處理速度成爲整個數據集處理的瓶頸。 如果數據傾

原创 Spark 讀寫數據、抽象轉換 拾遺

讀 package com.test.spark import org.apache.spark.sql.{Dataset, Row, SaveMode, SparkSession} /** * @author Administra

原创 Spark 調優之ShuffleManager、Shuffle

Shuffle 概述 影響Spark性能的大BOSS就是shuffle,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。 因此,如果要讓作業的性能更上一層樓,就有必要對 shuffle 過程進行調優。 當然,影響 Spark 性

原创 Spark 自定義函數(udf,udaf)

用戶自定義udf 自定義udf的方式有兩種 SQLContext.udf.register() 創建UserDefinedFunction 這兩種個方式 使用範圍不一樣 package com.test.spark import or

原创 SparkSession、SparkContext、SQLContext和HiveContext之間的區別。

SparkContext 是什麼? 驅動程序使用SparkContext與集羣進行連接和通信,它可以幫助執行Spark任務,並與資源管理器(如YARN 或Mesos)進行協調。 使用SparkContext,可以訪問其他上下文,比如SQL

原创 Storm 測試

本文將學習如何使用java創建Storm拓撲 Storm集羣的組件 Storm集羣類似於Hadoop集羣,只不過 Hadoop 上運行"MapReduce jobs", Storm 上運行"topologies"。 兩者最大的差別是,Map

原创 kafka簡介

Apache Kafka是一個分佈式流媒體平臺 流媒體平臺有三個關鍵功能: 發佈和訂閱記錄流,類似於消息隊列或企業消息傳遞系統。 以容錯的持久方式存儲記錄流。 記錄發生時處理流。 Kafka通常用於兩大類應用 構建可在系統或應