mongodb學習之五：聚合之group複習

之前參照書中的例子進行學習group,以爲有點懂了，想自己找個聯繫做做看，發現，原來並沒有懂。今天再慢慢複習一下看看group的具體用法。

數據使用java循環插入3600條數據，結構比較統一，結構如下：

{
    "_id" : ObjectId("5343a44474d0946a30cd26b1"),
    "name" : "趙小強",
    "sex" : "男",
    "age" : 39,
    "date" : "2010-9-14",
    "salary" : 8000,
    "dep" : "測試部"
}

很簡單，保存的是部門員工的信息。

1、求每個部門的平均工資

這個問題肯定得用group,因爲要分組按照部門輸出

db.runCommand({
	group:{
		ns:"emp",
		key:{"dep":true},
		initial:{avgSalary:0,sum:0,count:0},
		$reduce:function(doc,prev){
			prev.sum=prev.sum+doc.salary;
			prev.count++;
		},
		finalize:function(prev){
			prev.avgSalary = prev.sum/prev.count;
			delete prev.sum;
			delete prev.count;
		}
	}
});
輸出結果：
/* 0 */
{
    "retval" : [ 
        {
            "dep" : "軟件一部",
            "avgSalary" : 7509.505703422054
        }, 
        {
            "dep" : "工程實施部",
            "avgSalary" : 7214.285714285715
        }, 
        {
            "dep" : "軟件二部",
            "avgSalary" : 7477.358490566037
        }, 
        {
            "dep" : "測試部",
            "avgSalary" : 7564.96062992126
        }, 
        {
            "dep" : "信息管理部",
            "avgSalary" : 7334
        }, 
        {
            "dep" : "運維部",
            "avgSalary" : 7293.50104821803
        }, 
        {
            "dep" : "人力資源部",
            "avgSalary" : 7275.142314990512
        }
    ],
    "count" : 3600,
    "keys" : 7,
    "ok" : 1
}

其實我一直迷惑的是疊加函數$reduce的編寫。之前書中的例子中都使用了for循環，把我迷惑了。我沒看清的是書中例子的for是循環的文檔中某個數組類型的鍵

之所以叫疊加函數是因爲,$reduce函數本身就是循環集合中的文檔，不需要自己再寫。自己需要寫的只是每次循環你需要做的操作即可。

上面的例子中，初始文檔定義了三個鍵：{avgSalary:0,sum:0,count:0},其實這個初始文檔只是疊加的時候的初始文檔，與最後輸出的結果文檔沒太大的關係。

在$reduce函數中，我將salary進行疊加並計數,當疊加完成，還有使用最後的完成函數進行最後的過濾操作，將不必要的sum和count兩個鍵刪除。

2、統計每個部門的工資分佈情況,部門總共多少人,以及每個部門的平均工資。按部門輸出

db.runCommand({
	group:{
		ns:"emp",
		key:{"dep":true},
		initial:{salaryCount:{},sum:0,count:0,avgSalary:0},
		$reduce:function(doc,prev){
			if(doc.salary in prev.salaryCount){
				prev.salaryCount[doc.salary]++;
			}else{
				prev.salaryCount[doc.salary]=1;
			}
			prev.sum=prev.sum+doc.salary;
			prev.count++;
		},
		finalize:function(prev){
			prev.avgSalary = prev.sum/prev.count;
			delete prev.sum;
		}
	}
});

結果：
/* 0 */
{
    "retval" : [ 
        {
            "dep" : "軟件一部",
            "salaryCount" : {
                "3000" : 57,
                "4000" : 56,
                "5000" : 55,
                "6000" : 52,
                "7000" : 55,
                "8000" : 59,
                "9000" : 84,
                "10000" : 53,
                "15000" : 55
            },
            "count" : 526,
            "avgSalary" : 7509.505703422054
        }, 
        {
            "dep" : "工程實施部",
            "salaryCount" : {
                "3000" : 60,
                "4000" : 55,
                "5000" : 57,
                "6000" : 69,
                "7000" : 75,
                "8000" : 54,
                "9000" : 63,
                "10000" : 54,
                "15000" : 45
            },
            "count" : 532,
            "avgSalary" : 7214.285714285715
        }, 
        {
            "dep" : "軟件二部",
            "salaryCount" : {
                "3000" : 50,
                "4000" : 59,
                "5000" : 61,
                "6000" : 62,
                "7000" : 50,
                "8000" : 68,
                "9000" : 64,
                "10000" : 62,
                "15000" : 54
            },
            "count" : 530,
            "avgSalary" : 7477.358490566037
        }, 
        {
            "dep" : "測試部",
            "salaryCount" : {
                "3000" : 45,
                "4000" : 54,
                "5000" : 53,
                "6000" : 67,
                "7000" : 56,
                "8000" : 58,
                "9000" : 61,
                "10000" : 58,
                "15000" : 56
            },
            "count" : 508,
            "avgSalary" : 7564.96062992126
        }, 
        {
            "dep" : "信息管理部",
            "salaryCount" : {
                "3000" : 61,
                "4000" : 57,
                "5000" : 55,
                "6000" : 53,
                "7000" : 55,
                "8000" : 62,
                "9000" : 53,
                "10000" : 51,
                "15000" : 53
            },
            "count" : 500,
            "avgSalary" : 7334
        }, 
        {
            "dep" : "運維部",
            "salaryCount" : {
                "3000" : 51,
                "4000" : 56,
                "5000" : 50,
                "6000" : 53,
                "7000" : 57,
                "8000" : 54,
                "9000" : 52,
                "10000" : 65,
                "15000" : 39
            },
            "count" : 477,
            "avgSalary" : 7293.50104821803
        }, 
        {
            "dep" : "人力資源部",
            "salaryCount" : {
                "3000" : 61,
                "4000" : 65,
                "5000" : 63,
                "6000" : 57,
                "7000" : 49,
                "8000" : 66,
                "9000" : 52,
                "10000" : 63,
                "15000" : 51
            },
            "count" : 527,
            "avgSalary" : 7275.142314990512
        }
    ],
    "count" : 3600,
    "keys" : 7,
    "ok" : 1
}

3、接上面第二個例子，我只想看軟件一部的統計信息，怎麼辦?

這就用到了可選的cond參數，這個參數就是用來過濾查詢條件的

db.runCommand({
	group:{
		ns:"emp",
		key:{"dep":true},
		initial:{salaryCount:{},sum:0,count:0,avgSalary:0},
        cond:{"dep":"軟件一部"},
		$reduce:function(doc,prev){
			if(doc.salary in prev.salaryCount){
				prev.salaryCount[doc.salary]++;
			}else{
				prev.salaryCount[doc.salary]=1;
			}
			prev.sum=prev.sum+doc.salary;
			prev.count++;
		},
		finalize:function(prev){
			prev.avgSalary = prev.sum/prev.count;
			delete prev.sum;
		}
	}
});
結果：
/* 0 */
{
    "retval" : [ 
        {
            "dep" : "軟件一部",
            "salaryCount" : {
                "3000" : 57,
                "4000" : 56,
                "5000" : 55,
                "6000" : 52,
                "7000" : 55,
                "8000" : 59,
                "9000" : 84,
                "10000" : 53,
                "15000" : 55
            },
            "count" : 526,
            "avgSalary" : 7509.505703422054
        }
    ],
    "count" : 526,
    "keys" : 1,
    "ok" : 1
}

4、統計每年公司新進員工數量,以年的形式輸出

db.runCommand({
	group:{
		ns:"emp",
		$keyf:function(doc){
			return {year:doc.date.substr(0,4)};
		},
		initial:{empCount:0},
		$reduce:function(doc,prev){
			prev.empCount++;
		},
		finalize:function(prev){}
	}
});
結果：
/* 0 */
{
    "retval" : [ 
        {
            "year" : "2009",
            "empCount" : 761
        }, 
        {
            "year" : "2008",
            "empCount" : 736
        }, 
        {
            "year" : "2012",
            "empCount" : 682
        }, 
        {
            "year" : "2011",
            "empCount" : 699
        }, 
        {
            "year" : "2010",
            "empCount" : 722
        }
    ],
    "count" : 3600,
    "keys" : 5,
    "ok" : 1
}

上面這個例子演示了$keyf的使用。如果想自定義分組條件，則使用$keyf函數自定義。函數的參數是原文檔，函數操作完後，返回的是自定義鍵的文檔。

上面的例子中，我將文檔中的date鍵的值進行截取，只留年份，返回是一個以year爲鍵，以截取後的值爲值的文檔。

走完上面4個例子，對mongodb的group瞭解也慢慢明朗起來。以上的數據是我使用java循環插入的，結構比較整齊，因此在寫$reduce函數時並沒有對結構進行嚴謹的判斷。只是簡單的進行疊加等操作。

我也是剛開始學習，數據都是造的，包括問題和需求，在實際項目中遇到的問題可能要比這複雜的多的多，以後在實際項目中遇到什麼問題再慢慢學習吧。

mongodb學習之五：聚合之group複習

ubuntu下二進制包形式安裝mysql

mongodb學習之五：聚合之group複習

jsoup中文參考手冊

apache shiro

mongodb學習記錄之五：mapreduce

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結