原创 spark三維數據挖掘

先上GitHub地址 https://github.com/MethodJiao/PkpmSpark PkpmSpark 大數據分析 三維數據挖掘運算分析程序 實現的功能 1.分析大數據中相似三維場景 2.對經常出現的三維場景進行

原创 Spark 複雜數據結構數組的Udf用法

在spark2.4.4下UDF寫法有兩種(scala) 法一 sql拼接 val sparkSession = SparkSession.builder() .appName("PKPMBimAnalyse")

原创 哈希求和方式判斷相似字符串

哈希算法(c++) long hashString(string str) { char *charP = str.data(); long hashCode = 0; for (; *charP; ++c

原创 Linux進程監控

Centos下進程監控 需要藉助pidstat工具 命令格式:pidstat [option] interval [count] ps:如果你的linux輸入pidstat提示沒有找到那麼照下方做: yum search pids

原创 spark任務scala的jar包無法找到主類

記錄一次困擾良久的問題 編譯之後運行 無論如何也無法找到主類入口。 死活認不出來,我這個是maven編譯的編譯標籤方法如下 <build> <plugins> <plugin>

原创 分佈式數據庫部署方案

分佈式集羣數據庫部署方案 最近到新部門輪崗,瘋狂的汲取分佈式知識,以補充短板。之前一直好奇支付寶的數據庫部署方案究竟是什麼樣子。 這次有了個概念性的認識 方案一 PXC集羣 爲了保證數據的高度一致性及分區容錯,首先將一個數據庫進

原创 Docker最佳實踐

什麼是Docker 安裝Docker Docker安裝教程. 這裏有多個linux發行版的安裝教程很簡單,照着做就完事了。 創建屬於自己的Docker鏡像 創建所需文件 [root@ecs-25e3 ~]# mkdir Ngin

原创 Hystrix介紹

Hystrix Hystrix是分佈式系統限流降級,服務熔斷框架,主要處理依賴隔離。 Hystrix被設計的目標是: 1.對通過第三方客戶端庫訪問的依賴項(通常是通過網絡)的延遲和故障進行保護和控制。 2.在複雜的分佈式系統中阻止

原创 [C++]快速排序

c++快速排序 void NumQuickSort(vector<int>& s, int l, int r) { if (l < r) { int i = l, j = r, x = s[l]; int px = s

原创 [C++]泛型歸併排序及泛型二分查找

[C++]泛型歸併排序及泛型二分查找排序算法時間複雜度支持STL的泛型歸併排序支持STL的泛型二分查找Lambda表達式寫法 排序算法時間複雜度 常見的算法時間複雜度由小到大依次爲:Ο(1)<Ο(log2n)<Ο(n)<Ο(nl

原创 架構設計之充分解耦的實現

業務功能性 模塊,組件,類,三種層次的定義 系統設計的關鍵所在 可擴展 解耦 高併發 高性能 橫向擴容 高可用 其中1-2爲了解決複雜業務,3-6爲了解決業務增長問題 耦合 上圖就是一種耦合,模塊A的代碼內方法直接去訪問模塊

原创 架構設計之非功能性需求

非功能性需求什麼叫非功能性需求非功能性需求爲何與架構相關值得注意 什麼叫非功能性需求 非功能性需求包括性能、可修改性、可用性、易用性、複用性、環境要求等,在最初的需求方案分析階段很容易被忽略,而這些內容的考慮往往會影響到產品的實現

原创 [C++]Double類型判斷相等不能用==

double類型用==判斷相等爲什麼不行 double類型在計算機中是個近似數,並不能保證所有位數全部精準 1.舉個例子 #include "pch.h" #include <iostream> int main() { do

原创 Python爬蟲獲取Csdn文章

request獲取html 安裝: pip install requests 使用: import requests HTTP請求:GET、POST、PUT、DELETE、HEAD、OPTIONS get res =

原创 C++通過內嵌解釋器調用Python及間接調用Python三方庫

C++通過內嵌解釋器調用Python及間接調用Python三方庫1.移植Python解釋器Python環境的目錄結構路徑詳解2.VS配置(VS2017爲例,此教程與VS版本無關)3.C++調用程序樣例4.被調Python程序樣例