原创 Git命令對於已經commit沒有push的撤回(包括IDEA的操作)

背景 使用git來進行版本控制,發現自己多commit了個東西,然後想撤回。之前自己這塊一直沒有去看,當時忙也來不及去操作,操作了一下好像也沒有操作對,所以都是複製自己修改的然後刪除分支,這樣又麻煩有浪費時間。 解決 今天抽了點時

原创 spark executor的內存管理相關

參考資料:https://zhuanlan.zhihu.com/p/115888408 (真的很不錯的文章,受益匪淺) 前言 Executor 內存管理方面講解的很多,今天第一次細細來學習一下 內存管理相關我覺得理解可以讓

原创 Jdbc訪問hive

JDBC訪問注意點 如果JDBC代碼訪問出現問題,解決問題的辦法(我們在不同環境出現了不少問題,發現匪夷所思的問題大部分都是版本導致的) 1、校驗JDBC URL是否可以使用,在服務器上使用beeline連接這個URL看看是否可以

原创 Spark執行各種操作的分區數解讀

參考資料 https://juejin.im/entry/5a372a9b6fb9a04503102d75 https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/

原创 spark遇到的decimal精度缺失的問題

背景 decimal進行相關計算的時候精度會缺失,比如 字段a decimal(38,18) 字段b decimal(38,18) a+b 產生的數據類型就是出現decimal(38,17) 這種情況 解決 在spark.2.

原创 hive 統計分析相關ANALYZE

1.前言 本文大部分是對於官方問的那個的理解,小部分是自己的測試感受 官方文檔地址 https://cwiki.apache.org/confluence/display/Hive/StatsDev ANALYZE 這個命令接

原创 JPS相關的用法

作用 JPS是用來列出目標系統(windows或者linux)的JVM的相關信息。該命令僅限於展示其具有訪問權限的jvm上的信息。jps命令生成的jvm列表可以被授予的權限限制,該命令只列出該原則所針對的jvm 由特定於操作系統的

原创 presto 安裝部署(集羣模式和測試模式)

參考文檔:https://prestodb.io/docs/current/installation/deployment.html 部署 1、下載安裝包 去presto官網 https://prestodb.io/ 下載t

原创 SparkThiftServer 資源動態分配

背景 在做的項目BI 使用的是sparkJDBC來去查詢和處理數據。依賴的SparkThiftServer這一塊東西還是挺多的,今天來講一下資源動態分配。有了資源動態分配的功能,使其在處理大數據量或者小數據量的時候,都可以處理,而

原创 presto的hive connector連接以及JDBC訪問(包含kerberos方式)

參考資料:https://prestodb.io/docs/current/connector/hive.html 前言 presto支持hive connector,並支持連接多個hive connector,還支持ker

原创 hive JDBC的url的不同寫法

老是和這塊東西接觸,今天看看官網並結合自己理解總結下這一塊 官網地址:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer

原创 spark關於jersey包的衝突

背景 今天想啓動spark的history server 去查詢以往的日誌,發現能啓動成功,但是查看web界面的時候卻啥也沒有,並且後臺報錯 java.lang.NoSuchMethodError: javax.ws.rs.cor

原创 hive metastore解析

背景 以上所有內容,均搬自官方文檔,還有一部分是自己在實際經驗中的總結。官方文檔相關已經非常詳細,也希望大家能養成看官方文檔的好習慣。 官方文檔址:https://cwiki.apache.org/confluence/displ

原创 spark數據傾斜問題解決以及造成的spark OOM問題

參考資料 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html (美團的文章,獲益匪淺) https://blog.csdn.net/yisun123456/ar

原创 hiveserver2 的HA 配置

1、作用 如果只是使用一臺服務來啓動hiveserver2,那麼如果hiveserver2掛掉便不能提供jdbc的支持。hive 支持hiveserver2 HA,用於進行負載均衡和高可用 Hive從0.14開始,使用Zooke