開一文記錄和總結stata的學習,不斷更新中~
拿到一個數據集,首先要全局瞭解一下這個數據集的情況:
【describe】查看這個數據集的簡要介紹,包括了樣本數量(obs:)、變量數量(vars:)、大小(size:)、以及每個標量的簡要介紹。
【describe[varlist]】:可以單獨選擇某個變量查看,[]表示可選。
【describe,short】:只看整個數據集的總體概況,即截圖顯示的上半部分。
【count】:number of rows
【count if missing() 】:設置條件
【isid()】:check if an variable uniquely id entifies the data.檢查變量是否唯一標識數據,相當於判斷主屬性。
【unique】先安裝,指令【ssc install unique】
重複值數據量(所有數據量)和唯一值(不重複的數據)數據量。
【codebook】:適合初次接觸一個數據集時查看一些信息
類型(numeric: )、標籤(label)、範圍(range)、單位(units)、特異值(unique)、缺失值(missing)、以及一些統計量。這樣,我們對於該變量有一個初步的瞭解。
【codebook [varlist][if][in][,options]】
varlist:變量名單(>=1)
if:邏輯判斷
in:第幾個到第幾個觀測值
eg: in 10/100 指第10到第100個觀測
in 10 第10個
in 10/l 第10個到最後一個
in f/10 第一個到第10個
options:一些自定義的選項
更多詳情:【help codebook】
【summarize[varlist] [if] [weight] [,options]】:print summary statistics (mean,stdev,min,max) for varible 變量的摘要統計信息(平均值、標準偏差、最小值、最大值)
注:【summarize】=【sum】=【summ】
與【codebook】的一些不同請參考help