原创 azure databricks使用external hive metastore跨工作區共享元數據

爲什麼要使用external hive metastore可以跨workspace的共享元數據,不用每次創建workspace的時候都重複的把元數據重建一次。更好的元數據集中管理,Create once, use everywhere。爲災

原创 azure databricks中使用Unity Catalog 03--Data Sharing

本文介紹 Azure Databricks 中的 Delta Sharing,這是安全的數據共享平臺,可用於與組織外的用戶共享 Azure Databricks 中的數據。sharing分兩類:開放共享:可與任何用戶共享數據(無論他們是否有

原创 azure databricks中使用Unity Catalog 02--功能體驗

目錄先決條件在Azure Databricks環境中設置Unity Catalog元存儲步驟1:爲元存儲創建blob存儲步驟2:創建Azure Databricks訪問連接器步驟3:在Azure Databricks帳戶控制檯中創建元存儲步

原创 azure databricks中使用Unity Catalog 01--基礎概念

先總結下unity catalog是databricks的數據治理解決方案,他提供了統一的元數據管理、權限訪問控制、數據審覈、數據質量、數據血緣、數據發現、數據共享等功能。目前unity catalog在azure中國(Mooncake)還

原创 SparkSQL與Hive查詢不一致問題

問題Spark sql 查詢出的數據量與hive不一致,重啓spark就沒問題,查詢結果一致。或者報錯說讀取的文件不存在,類似如下的錯誤FileReadException: Error while reading file xxx.It i

原创 azure-databricks-cluster-usage-management

Overview定義計算資源(集羣、作業和池),並確定用於不同工作負載的資源。描述幾個用例的集羣資源調配策略,以最大限度地提高可用性和成本效益。描述集羣治理的最佳實踐,包括集羣策略。描述Azure Databricks的容量限制。描述如何管

原创 【原創】Databricks 更改hive metastore version

在 Databricks Runtime 7.0 及更高版本上,Hive 1.2.0 和 1.2.1 不是內置的元存儲。 如果要將 Hive 1.2.0 或 1.2.1 與 Databricks Runtime 7.0 及更高版本一起使用,

原创 【原創】Talend 配置SSL支持gitlab

背景talend的源代碼控制用的是gitlab,以前都是http方式的,但是最近突然改了https,所以talend登錄失敗,必須要SSL方式才能獲取到分支等數據,才能提交代碼。證書導入1、talend studio導入gitlab生成證書

原创 Airflow調用talend

核心原理因爲talend job build出來是一個可直接運行的程序,可以通過shell命名啓動job進程,因此可以使用airflow的bashoperator調用生成好的talend job包裏面的sh腳本,啓動talend job。設

原创 【原創】CentOS 7 安裝airflow

該文是基於python虛擬化環境來安裝,非虛擬化也是一樣,虛擬化我只是不想破環系統環境。安裝python虛擬環境pip install virtualenv設置環境變量sudo vi /etc/profile將如下內容添加到末尾export

原创 【原創】CentOS 7 安裝redis 5

1、下載redis安裝包cd /softwares/wget http://download.redis.io/releases/redis-5.0.5.tar.gz2、解壓redis-5.0.5.tar.gztar -xzf redis-

原创 【原創】Centos 7 升級安裝python3.7.4

1、安裝必須的軟件#更新源中包列表yum -y update#先安裝擴展源EPEL 才能安裝pip 否則會報錯yum -y install epel-release//解決ssl問題,否則報錯:pip is configured with

原创 【原創】Airflow 簡介&如何部署一個健壯的 apache-airflow 調度系統

聲明本文摘錄了很多前輩的文章,原文如下:https://www.jianshu.com/p/2ecef979c606Airflow 簡介Airflow是一個可編程,調度和監控的工作流平臺,基於有向無環圖(DAG),airflow可以定義一組

原创 【原創】CentOS 7 安裝解壓版mysql5.7

1、將mysql壓縮包解壓至 /usr/local 文件夾下,將其改名爲mysql#解壓tar -zxf mysql-5.7.27-el7-x86_64.tar.gz -C /usr/local/#重命名cd /usr/local/mv m

原创 win10 升級導致找不到SQL Server配置管理器

1、背景SQL Server配置管理器可用來管理與SQL Server相關聯的服務、配置SQL Server使用的網絡協議以及從SQL Server客戶端計算機管理網絡連接配置。但是win10從1709升級到1803,升級成功後發現SQL