原创 分佈式計算原理之分佈式協調與同步(1)——分佈式鎖

1:什麼是分佈式鎖 在分佈式互斥中,分佈式互斥博客地址,講述了同一時刻,同一個臨界資源只能同一個進程訪問,爲了維護數據的一致性,防止分佈式系統中的多個進程之間相互干擾,我們需要一種分佈式協調技術(某種機制)來對這些進程進行調度,來保證只有

原创 CNN & LSTM & Conv1D+LSTM 同一數據集預測案例分析

1:前言 利用CNN、LSTM 和Conv1D+LSTM 分別對同一數據集進行預測分析,並用訓練集和測試集比較結果; time_steps 設置爲6,經過數據預處理和數據切分處理後,輸入特徵爲4維,利用每個sample中的前5行數據預測第

原创 分佈式計算原理之分佈式協調與同步(1)——分佈式互斥

1:什麼是分佈式互斥 分佈式進程常常需要協調他們的動作,如果一組進程共享一個或一組資源,那麼訪問這些資源時,需要互斥來防止干擾並保證一致性。在分佈式系統裏,這種排他性的資源訪問方式,叫作分佈式互斥(Distributed Mutu

原创 分佈式計算原理之分佈式協調與同步(1)——分佈式事務

什麼是分佈式事務 事務,其實是包含一系列操作的、一個有邊界的工作序列,有明確的開始和結束標誌,且要麼被完全執行,要麼完全失敗,即 all or nothing。通常情況下,我們所說的事務指的都是本地事務,也就是在單機上的事務。 而

原创 分佈式計算原理之分佈式協調與同步(1)——分佈式選舉

1:分佈式選舉的概念 一般來說,集羣有兩個或兩個以上的服務器組件而成,其中,每個服務器都是集羣中的一個節點。對於一個節點來說,多個節點是如何做到協同工作?比如數據庫集羣,如何保證數據庫寫入集羣在每個節點上都是一致的呢? 即:在衆多

原创 LeetCode:976. Largest Perimeter Triangle---構造三角形

題目: Given an array A of positive lengths, return the largest perimeter of a triangle with non-zero area, formed from 3

原创 (4) 李航《統計學習方法》基於Python實現——樸素貝葉斯

1:高斯模型下的樸素貝葉斯 import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.model_sel

原创 XGBoost--切分點查找算法

1:前言: 本篇博客省去了從樹模型到GBDT,再到XGBoost的漸進演變邏輯過程和數學推導,主要講述XGBoost在每輪訓練生成新的樹模型時,採取的切分點選擇算法和相關數學證明。 2:背景 XGBoost在每輪訓練生成新的樹模型時,首先

原创 LSTM邏輯設計詳細解讀

1:前言 之前在用LSTM做時序問題分類,如單變量預測、多變量預測、LSTM+CNN做時空卷積神經網絡算法設計時,涉及算法調參過程時,對參數量和Num_Units的概念沒有完全理解掌握,所以重新對LSTM自底向上重新梳理一遍。包括

原创 Spark高級算子:mapPartitionsWithIndex,aggregate,aggregateByKey

1:mapPartitionsWithIndex: 對RDD中的每個分區(帶有下標)進行操作,通過自己定義的一個函數來處理        API文檔:        def mapPartitionsWithIndex[U](f: (In

原创 Spark:RDD簡介及基礎算子

本文主要介紹Spark Core的核心內容:RDD。包含以下章節和對應的內容 章節 內容 1 RDD簡介 2 RDD分區 3 RDD的依賴關係 4 RDD的緩存機制和區別 5 RDD創建的兩種方式 6 RDD算子和總結 7 RDD 算子操

原创 SparkSQL集成Hive

(1)相關配置: 將以下文件拷貝到 $SPARK_HOME/conf 目錄下 Hive: hive-site.xml Hadoop: core-site.xml和hdfs-site.xml 同時,啓動Spark shell 的時候,需要制

原创 二叉樹,二叉查找樹,平衡二叉樹以及紅黑樹概述

在這篇博客之前,花了些時間瞭解紅黑樹的內容,但是沒有形成自己的知識圖譜,也沒有一條清晰的邏輯主線將知識串聯起來,這次重新整理了一下。 首先,這裏過濾了樹模型的一些基礎概念上的內容,比如父節點,子節點,葉子節點(葉節點),兄弟節點,

原创 大數據相關開源項目及組件彙總

前言 花了一點時間,整理了大數據相關開源項目、組件和官網地址。按照實際應用功能的不同,分爲以下10個部分,並在目錄圖中進行歸納,後續章節的內容則是分別介紹各組件的背景及應用場景。 調度與管理服務 文件系統 數據蒐集 消息系統 內

原创 Python---選擇正確的內置函數和標準庫實例(附代碼)

1:選擇正確的內置函數 Python有一個大型標準庫,但只有一個內置函數的小型庫,這些函數總是可用的,不需要導入。它們每一個都值得我們仔細研究,尤其是在其中一些函數的情況下,可以用什麼替代更好 1.1 使用enumerate()而不是