Mongodb 指定字段去重操作

原創

2020-06-28 23:36

最近自己写的爬虫后的数据存入mongodb存在一些重复数据，在用户查询时可能出现重复选项，这样用户体验不咋好。下面记录如何根据指定字段，对数据库现有数据进行排重。

db.juejin.aggregate([
    { $group: { _id : '$chapterName', count: { $sum : 1 } } },
    { $match: { count: { $gt : 1} } }
])

上面我们根据指定chapterName字段查询出，该字段下相同的数据个个数

 db.juejin.aggregate([
    {
        $group: { _id: {chapterName: '$chapterName'},count: {$sum: 1},dups: {$addToSet: '$_id'}}
    },
    {
        $match: {count: {$gt: 1}}
    }
	],{allowDiskUse: true}).forEach( //（使用forEach循环根据_id删除数据）
    function(doc){ 
        doc.dups.shift(); 
        db.juejin.remove(
            {
                _id: {
                    $in: doc.dups
                }
            }
        ); 
    }
)

{allowDiskUse: true}通过使用磁盘进行缓存。

这样我们的重复数据就被删掉了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

nodejs-第二章-第二节-nodejs事件循环(2-1)

當Node.js啓動時會初始化event loop,每個event loop 都會包含按如下六個節點循環，nodejs事件循環和瀏覽器事件循環完全不一樣。圖中的每個方框被稱作事件循環的一個"階段"，這6個階段爲一輪事件循環; 階段概

2023-10-25 01:59:01

nodejs-第二章-第三节-nodejs多进程(2-1)

此章節一共分爲兩個章節，下一節，nodejs-第二章-第三節-nodejs多進程-cluster(2-2) 內容索引爲什麼要使用多進程多進程和多線程介紹 nodejs開啓多線程和多進程的方法 cluster原理介紹爲什麼要使用多進

2023-10-25 01:58:58

nodejs-第三章-第一节-nodejs-NoSql数据库

內容索引（非關係型數據庫） redis開發（內存型） Memcached(內存型) MongoDb(存儲型) 內存型：讀取速度快，容量小存貯型：讀取速度慢，存量大 NoSQL主要應用場景專門應對高併發，需要高速讀寫的場景，re

2023-10-25 01:58:57

JavaScript 浏览器统治地位不保？Python 有望取代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 17:58:57

React Native迎来重大架构升级，性能将大幅提升

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-07-26 12:23:56

Node.js使用数据库LevelDB：超高性能kv存储引擎

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-24 23:54:07

2021年Node.js开发人员学习路线图

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-03-31 16:43:50

15 个常见的 Node.js 面试问题及答案

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Juan Cruz Martinez

2021-03-22 18:35:32

浅析 Node 进程与线程

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

政采云前端团队

2021-02-01 00:23:57

Deno 1.6正式发布！支持编译成单个可执行文件，苹果M1可原生运行

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2020-12-11 14:03:54

.NET Core vs Node.js：你应该选择哪个？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2020-11-30 17:34:03

Webpack 5.0正式发布：更好的持久化缓存算法、提高Web平台的兼容性、带来Node生态新功能

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

Webpack官方团队

2020-11-30 17:34:03

搭建node服务（四)：Decorator装饰器

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2020-11-22 14:03:51

Bytecode Alliance宣布服务器端WebAssembly发展愿景

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2020-11-14 11:03:59

Redis + NodeJS 实现一个能处理海量数据的异步任务队列系统

一、引言在最近的業務中，筆者接到了一個需要處理約十萬條數據的需求。這些數據都以字符串的形式給到，並且處理它們的步驟是異步且耗時的（平均處理一條數據需要 25s 的時間）。如果以串行的方式實現，其耗時是相當長的：總耗時時間 = 數據量 ×

2020-11-06 10:03:51

24小時熱門文章

最新文章

最新評論文章