hive表更改元數據之後未選擇級聯，在查詢時spark引擎和hive/tez引擎查詢結果不一致問題

原創

2020-05-12 02:11

最近在工作中遇到一個問題：他人修改了數據表之後（加了兩個字段，但是沒有選擇級聯更改），用spark引擎查是可以查到數據，用tez/hive來查新增的兩個字段的值是null值。

最後發現是分區的元數據和表的元數據不一致導致的，分區的元數據少了新增的兩個字段，所以查出來數據是null。

下面是兩段代碼，分別查表的元數據信息和分區的元數據信息：

#查表的元數據信息
desc table_name;
#查對應分區的元數據信息
desc table_name partition(分區字段='分區值')

對比發現各自元數據的不一致。

那麼發現了問題，如何進行修正呢？

總不能把表刪掉重建吧，世上也沒有後悔藥，能讓你在進行更改字段的時候選擇級聯更改。

那該怎麼辦呢？解決辦法如下:

alter table tablename change 字段名 字段名 字段類型 cascade;

重新修改字段類型，再改回來，這樣就能刷新所有分區的元數據了。

問題解決！

疑問：爲什麼當時更改完字段之後，spark能查到數據而tez\hive卻查不到呢？

個人猜想：可能spark sql查詢的時候使用的表的元數據去進行查詢，而tez\hive用的是對應分區的元數據去查詢，所以spark能查到數據而hive\tez查不到數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

探索GaussDB(DWS)湖倉融合：Hudi與元數據打通的深度解析

華爲雲數倉GaussDB(DWS)研發專家高若嶽老師，深入解析GaussDB(DWS)數據倉庫如何與大數據生態快速對接。隨着智能數據時代的到來，數據量爆發式增長，數據形態呈海量化和多樣化發展，不再是單一的結構化數據。從海量和多樣化的數

2024-04-01 22:33:07

Hive UDTF 接受參數及Redis連接問題

hive-exec-2.7.3版本中最通用的方法，所有的類型都可以接收。 ObjectInspector[] inputIOS; public StructObjectInspector initialize(ObjectInspec

2024-03-28 23:40:23

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

03-SparkSQL入門

0 Shark Spark 的一個組件，用於大規模數據分析的 SQL 查詢引擎。Shark 提供了一種基於 SQL 的交互式查詢方式，可以讓用戶輕鬆地對大規模數據集進行查詢和分析。Shark 基於 Hive 項目，使用 Hive 的元數據存

2024-03-24 02:48:20

數據湖三大框架

一、數據湖框架目前市面上流行的三大開源數據湖方案分別爲：Delta Lake、Apache Iceberg和Apache Hudi 1、Delta Lake：DataBricks公司推出的一種數據湖方案，官網 2、Apache Iceb

2024-03-14 00:16:55

愛奇藝數據湖實戰 - Hive數倉平滑入湖

愛奇藝基於 Hive 構建了傳統的離線數據倉庫，支持了公司運營決策、用戶增長、視頻推薦、會員、廣告等業務需求。近幾年，隨着業務對數據實時性的更高要求。我們引入了基於 Iceberg 的數據湖技術，大幅提升數據查詢性能及整體流通效率。從性能

愛奇藝技術產品團隊

2024-03-12 03:21:25

hive分區和分桶你熟悉嗎？

兩種用於優化查詢性能的數據組織策略，數倉設計的關鍵概念，可提升Hive在讀取大量數據時的性能。 1 分區（Partitioning）根據表的某列的值來組織數據。每個分區對應一個特定值，並映射到HDFS的不同目錄。常用於經常查詢的列，如日

2024-03-11 02:23:15

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

財務數據處理問題及解決方案分享

一、平臺介紹財務自營計費主要承接京東自營數據在整個供應鏈中由C端轉B端的功能實現，在整個供應鏈中屬於靠後的階段了，系統主要功能是計費和向B端的彙總。二、問題描述近年來自營計費數據量大增，有百億+的數據量，一天中彙總佔據了一半的數據

2024-02-04 12:03:52

老知識覆盤-SQL從提交到執行到底經歷了什麼 | 京東雲技術團隊

一、什麼是SQL sql(Structured Query Language: 結構化查詢語言)是高級的費過程化編程語言,允許用戶在高層數據結構上工作, 是一種數據查詢和程序設計語言, 也是(ANSI)的一項標準的計算機語言. but...

2023-11-22 12:37:34

架構探索之路-第一站-clickhouse | 京東雲技術團隊

一、前言架構, 軟件開發中最熟悉不過的名詞, 遍佈在我們的日常開發工作中, 大到項目整體, 小到功能組件, 想要實現高性能、高擴展、高可用的目標都需要優秀架構理念輔助. 所以本人嘗試編寫架構系列文章, 去剖析市面上那些經典優秀的開源項目

2023-11-21 12:08:02

Iceberg入門介紹

1、Iceberg簡介本質：一種數據組織格式 1.1、應用場景 ①面向大表：單表包含數十個PB的數據 ②分佈式引擎非必要：不需要分佈式SQL引擎來讀取或查找文件 ③高級過濾：使用表元數據，使用分區和列級統計信息修建數據文件 1.2、集成方

2023-08-02 00:02:27

24小時熱門文章

最新文章

最新評論文章