刪除數據庫表中重複數據的方法

原創

2022-10-01 14:31

一直使用Postgresql數據庫，有一張表是這樣的：

DROP TABLE IF EXISTS "public"."devicedata";
CREATE TABLE "public"."devicedata" (
  "Id" varchar(200) COLLATE "pg_catalog"."default" NOT NULL,
  "DeviceId" varchar(200) COLLATE "pg_catalog"."default",
  "Timestamp" int8,
  "DataArray" float4[]
)

CREATE INDEX "timeIndex" ON "public"."devicedata" USING btree (
  "Timestamp" "pg_catalog"."int8_ops" DESC NULLS LAST,
  "DeviceId" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST
);

ALTER TABLE "public"."devicedata" ADD CONSTRAINT "devicedata_pkey" PRIMARY KEY ("Id");

主鍵爲Id，是通過程序生成的GUID，隨着數據表的越來越大（70w），即便我建立了索引，查詢效率依然不樂觀。

使用GUID作爲數據庫的主鍵對分佈式應用比較友好，但是不利於數據的插入，可以使用類似ABP的方法生成連續的GUID解決這個問題。

爲了進行優化，計劃使用DeviceId與Timestamp作爲主鍵，由於主鍵會自動建立索引，使用這兩個字段查詢的時候，查詢效率可以有很大的提升。不過，由於數據庫的插入了很多的重複數據，直接切換主鍵不可行，需要先剔除重複數據。

使用group by

數據量小的時候適用。對於我這個70w的數據，查詢運行了半個多小時也無法完成。

DELETE FROM "DeviceData"
WHERE "Id"
NOT IN (
SELECT max("Id")
FROM "DeviceData_temp"
GROUP BY "DeviceId", "Timestamp"
);

使用DISTINCT

建立一張新表然後插入數據，或者使用select into語句。

SELECT DISTINCT "Timestamp", "DeviceId"
INTO "DeviceData_temp"
FROM "DeviceData";
-- 刪除原表
DROP TABLE "DeviceData";
-- 將新表重命名
ALTER TABLE "DeviceData_temp" RENAME TO "DeviceData";

不過這個問題也非常大，很明顯，未來的表，是不需要Id列的，但是DataArray也沒有了，沒有意義。

如果SELECT DISTINCT "Timestamp", "DeviceId", "DataArray"，那麼可能出現"Timestamp", "DeviceId"重複的現象。

使用ON CONFLICT

如果我們直接建立新表格，設置好新的主鍵，然後插入數據，如果重複了就跳過不就行了？但是使用select into是不行了，重複的數據會導致語句執行中斷。需要藉助upsert（on conflict）方法。

INSERT INTO "DeviceData_temp"
SELECT * FROM "DeviceData"
on conflict("DeviceId", "Timestamp") DO NOTHING;
-- 刪除原表
DROP TABLE "DeviceData";
-- 將新表重命名
ALTER TABLE "DeviceData_temp" RENAME TO "DeviceData";

執行不到100s就完成了，刪除了許多重複數據。

參考文獻

https://blog.csdn.net/wendred/article/details/84704042

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

刪除數據庫表中重複數據的方法

使用group by

使用DISTINCT

使用ON CONFLICT

參考文獻

自學編程兩個月，現在我月入 4 萬元

「實戰應用」如何用圖表控件LightningChart創建2D氣泡圖

百度安全多篇議題入選Blackhat Asia以硬技術發現“芯”問題

Google Chrome驅動程序 124.0.6367.62（正式版本）去哪下載？

StreamJsonRpc.ConnectionLostException 在請求完成之前, 與遠程方的 JSON-RPC 連接已丟失

從英庫（Engkoo）輸入法吐槽

EF Core預編譯模型Compiled Model

使用MVVM Toolkit簡化WPF開發

簡單實現.NET Hook與事件模擬

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結