Mongodb 指定字段去重操作

原創

2020-06-28 23:36

最近自己寫的爬蟲後的數據存入mongodb存在一些重複數據，在用戶查詢時可能出現重複選項，這樣用戶體驗不咋好。下面記錄如何根據指定字段，對數據庫現有數據進行排重。

db.juejin.aggregate([
    { $group: { _id : '$chapterName', count: { $sum : 1 } } },
    { $match: { count: { $gt : 1} } }
])

上面我們根據指定chapterName字段查詢出，該字段下相同的數據個個數

 db.juejin.aggregate([
    {
        $group: { _id: {chapterName: '$chapterName'},count: {$sum: 1},dups: {$addToSet: '$_id'}}
    },
    {
        $match: {count: {$gt: 1}}
    }
	],{allowDiskUse: true}).forEach( //（使用forEach循環根據_id刪除數據）
    function(doc){ 
        doc.dups.shift(); 
        db.juejin.remove(
            {
                _id: {
                    $in: doc.dups
                }
            }
        ); 
    }
)

{allowDiskUse: true}通過使用磁盤進行緩存。

這樣我們的重複數據就被刪掉了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

nodejs-第二章-第二節-nodejs事件循環(2-1)

當Node.js啓動時會初始化event loop,每個event loop 都會包含按如下六個節點循環，nodejs事件循環和瀏覽器事件循環完全不一樣。圖中的每個方框被稱作事件循環的一個"階段"，這6個階段爲一輪事件循環; 階段概

2023-10-25 01:59:01

nodejs-第二章-第三節-nodejs多進程(2-1)

此章節一共分爲兩個章節，下一節，nodejs-第二章-第三節-nodejs多進程-cluster(2-2) 內容索引爲什麼要使用多進程多進程和多線程介紹 nodejs開啓多線程和多進程的方法 cluster原理介紹爲什麼要使用多進

2023-10-25 01:58:58

nodejs-第三章-第一節-nodejs-NoSql數據庫

內容索引（非關係型數據庫） redis開發（內存型） Memcached(內存型) MongoDb(存儲型) 內存型：讀取速度快，容量小存貯型：讀取速度慢，存量大 NoSQL主要應用場景專門應對高併發，需要高速讀寫的場景，re

2023-10-25 01:58:57

JavaScript 瀏覽器統治地位不保？Python 有望取代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 17:58:57

React Native迎來重大架構升級，性能將大幅提升

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-07-26 12:23:56

Node.js使用數據庫LevelDB：超高性能kv存儲引擎

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-24 23:54:07

2021年Node.js開發人員學習路線圖

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-03-31 16:43:50

15 個常見的 Node.js 面試問題及答案

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Juan Cruz Martinez

2021-03-22 18:35:32

淺析 Node 進程與線程

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

政采云前端团队

2021-02-01 00:23:57

Deno 1.6正式發佈！支持編譯成單個可執行文件，蘋果M1可原生運行

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2020-12-11 14:03:54

.NET Core vs Node.js：你應該選擇哪個？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2020-11-30 17:34:03

Webpack 5.0正式發佈：更好的持久化緩存算法、提高Web平臺的兼容性、帶來Node生態新功能

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

Webpack官方团队

2020-11-30 17:34:03

搭建node服務（四)：Decorator裝飾器

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2020-11-22 14:03:51

Bytecode Alliance宣佈服務器端WebAssembly發展願景

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2020-11-14 11:03:59

Redis + NodeJS 實現一個能處理海量數據的異步任務隊列系統

一、引言在最近的業務中，筆者接到了一個需要處理約十萬條數據的需求。這些數據都以字符串的形式給到，並且處理它們的步驟是異步且耗時的（平均處理一條數據需要 25s 的時間）。如果以串行的方式實現，其耗時是相當長的：總耗時時間 = 數據量 ×

2020-11-06 10:03:51

24小時熱門文章

最新文章

最新評論文章