原创 hadoop組件---spark實戰----spark on k8s模式k8s原生方式spark2.4.4 通過web UI界面查看任務運行情況

一般我們在運行spark任務時,需要查看他的運行情況。 比較常用的方式就是在spark的UI界面上查看。 一般的spark 因爲driver所在的node是固定的,ip也就是固定的,所以能夠通過ip或者域名映射後即可很方便的進行訪

原创 k8s---使用ingress配置域名轉發時的traefik路徑規則詳解

ingress中traefik的使用方式如下: apiVersion: extensions/v1beta1 kind: Ingress metadata: name: spark-client-test namespac

原创 hadoop組件---spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 client mode提交python程序和運行pyspark

我們在上篇文章已經學習使用spark on k8s的client mode 運行了spark shell 和提交jar包運行任務。 hadoop組件—spark實戰----spark on k8s模式k8s原生方式安裝spark2

原创 hadoop組件---spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 client mode提交python程序在spark中訪問s3

我們在上篇文章中已經成功運行使用spark-submit提交了python程序運行spark。 hadoop組件—spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 client mode提交

原创 數據挖掘----基礎--conda安裝---miniconda

conda簡介 Conda 是一個開源的軟件包管理系統和環境管理系統,用於安裝多個版本的軟件包及其依賴關係,並在它們之間輕鬆切換。 Conda 是爲 Python 程序創建的,適用於 Linux,OS X 和Windows,也可以

原创 數據挖掘(七) -----在python程序中使用hail

我們在之前的文章中已經嘗試安裝了hail和簡單的使用 數據挖掘(五) -----基於Spark的可伸縮基因數據分析平臺開源存儲運算架構hail全面瞭解和安裝 但是 我們發現 這種hail的運行方式 是需要進入到conda的hail

原创 hadoop組件---面向列的開源數據庫(八)--java使用phoenix查詢hbase

我們在上篇文章中已經學習了 如果使用phoenix的shell命令行工具進行 增刪改查,同時明確了 phoenix要查詢hbase原生建立的表 需要創建映射表或者 映射視圖。 hadoop組件—面向列的開源數據庫(七)–phoen

原创 hadoop組件---spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 cluster mode

目前最新穩定版本2.4.4的官方安裝文檔 環境準備 1、使用spark2.3以上的spark版本 2、已經在運行的k8s集羣版本需要大於1.6 使用命令查詢 kubectl version 輸出爲: zhangxiaofans-

原创 遇到問題--k8s--異常排查--pod重啓在執行任務時自動重啓的

情況 執行一個長連接訪問的方法,執行到一半後 沒有日誌輸出了。初步判斷爲pod已經被重啓了。 原因 使用命令排查如下: [zzq@localhost zzq]$ kubectl get pods |grep report-api

原创 hadoop組件---面向列的開源數據庫(九)--python--python使用thrift連接hbase

Python使用thrift操作HBase thrift支持多種語言進行連接使用,但是沒找到linux中的cli操作命令行的形式。所以如果服務器有python環境的話,可以使用python進行連接,快速測試。 確認hbase和th

原创 hadoop組件---spark理論----spark on k8s模式的三種方式全面瞭解

我們在之前的文章中 已經瞭解了 spark支持的模式,其中一種就是 使用k8s進行管理。 hadoop組件—spark----全面瞭解spark以及與hadoop的區別 是時候考慮讓你的 Spark 跑在K8s 上了 spark

原创 遇到問題--HttpClient默認重試策略不處理SocketTimeoutException

情況 使用httpClient 4.5.3版本的默認重試策略DefaultHttpRequestRetryHandler. httpclient默認會有三次重試,但是 生產環境 運行時 發現 超時報錯並沒有進行重試。 報錯信息如下

原创 hadoop組件---面向列的開源數據庫(六)--使用sql訪問hbase的組件--phoenix全面瞭解和安裝

phoenix簡介 我們在之前得文章中已經學習了thrift 以及使用 thrift 對hbase進行訪問。 hadoop組件—面向列的開源數據庫(三)—hbase的接口thrift簡介和安裝 hadoop組件—面向列的開源數據庫

原创 hadoop組件---spark實戰----遇到問題---executor無法刪除

遇到問題----executor無法刪除一直重啓序號自增 如下: [zzq@localhost spark-2.4.4-bin-hadoop2.7]$ kubectl get pods |grep spark spark-1529

原创 aws-s3-使用boto3根據路徑設置生命週期

使用boto3根據路徑設置生命週期–過期刪除 import boto3 import time s3 = boto3.resource('s3', region_name='cn-xxxxxx-1') def set_lif