伍德里奇計量經濟學導論之計算機操作題的R語言實現（一些重要專題）

引言

本章內容介紹了多元線性迴歸一些好玩且實用的專題：

改變自變量（因變量（對數自變量）當度量單位對因變量（自變量）、係數、t值、F值等的影響
自變量和因變量標準化以後B係數的解釋
對數-水平模型下，B係數當精確解讀以及二次模型來表明邊際遞增或遞減當情況
調整的R方的好處以及缺點（這個倒是第一次見識）
構造估計值和預測值的一個置信區間
殘差分析

本文代碼和整理好的數據見這裏
此篇博客開始，每一題上方都會來個小標題，表明該題涉及到當重要技術細節，以供參考。

C6.1 二次項模型的加入以及解釋

data_kielmc<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/kielmc.csv',header = T)
lm_kielmc<-lm(log(Price)~log(dist),data=data_kielmc)
#預期 垃圾焚化爐離住房越遠，價格越高，係數符號應爲正。
summary(lm_kielmc)
#log(Price)=8.25750+0.31722 log(dist)
#距離相隔每增加百分之一，平均來說，價格變每上升0.31%
#(2)
lm_kielmc_1<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age,data=data_kielmc)
summary(lm_kielmc_1)
## 係數從0.31722減小到0.0281887 ，因爲增加了更多了更多變量來解釋價格當變化，焚化爐距離遠近對價格影響效應減弱。
#(3)
lm_kielmc_2<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2),data=data_kielmc)
summary(lm_kielmc_2)
#log(Price)=-3.7907630+0.1897589log(dist)+ 1.9024997log(intst) -0.1128430I((log(intst))^2)...
#加入log(intst)的二次項以後log(intst)一次項係數變得統計顯著了，二次項係數也是統計顯著的。
#在此估計模型下，住房價格與離告訴公路當距離呈現倒U型關係，在剛開始時距離越大價格越大，但是到達
#一個臨界點以後，這個距離是-1.9024997/(2*-0.1128430)=8.429853
#從實際生活中也可以解釋，住房在剛開始離得遠時，遠離告訴公路帶來當噪聲，但是遠離太多時，交通就不方便了，因此價格就下降了
#(4)
lm_kielmc_3<-lm(log(Price)~log(dist)+log(intst)+log(area)+log(land)+rooms+baths+age+I((log(intst))^2)+I((log(dist))^2),data=data_kielmc)
summary(lm_kielmc_3)
##加入以後log(dist)以及(log(dist)）^2都是不顯著的，並沒有使模型有更好 解釋效果，所以不加入爲好。

C6.2二次項係數對因變量的解釋

data_wage1<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage1.csv',header = T)
#(1)
lm_wage1<-lm(log(wage)~educ+exper+I(exper^2),data=data_wage1)
summary(lm_wage1)
#log(wage)=0.1279975+0.0903658educ+0.0410089 exper-0.0007136I(exper^2)
#Adjusted R-squared:  0.2963 n=526
#(2)
#在給定1%的顯著性水平下，exper^2係數P值爲1.42e-09，小於顯著性水平，因此認爲該項變量顯著
#(3)當在第四年時
(0.0410089-2*0.0007136*4)*1*100
# 第五年的近似回報爲3.53%
#當在第19年時，
(0.0410089-2*0.0007136*19)*1*100
#回報下降到1.38921%
#(4)
#求解 0.0410089-2*0.0007136*n=0
0.0410089/(2*0.0007136)
#29年以後會降低工作預期
length(which(data_wage1[,'exper']>29))#111個大於29年的

C6.3二次項係數的置信區間


#(1)
#對educ求導易得導數爲B1+B3exper
#(2)
#教育的回報不取決exper意味着B3=0,則對立假設：在給定教育年限的情況下,B3>0
#(3)
data_wage2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/wage2.csv',header = T)
lm_wage2<-lm(log(wage)~educ+exper+educ:exper,data=data_wage2)
summary(lm_wage2)
#給定5%的顯著性水平，B3的t值對應的P值爲0.0365小於0.05,因此拒絕原假設，認爲教育的回報取決於經驗。
newvar<-(10*data_wage2$educ-data_wage2$educ*data_wage2$exper)
lm_wage2_1<-lm(log(wage)~educ+exper+newvar,data=data_wage2)
summary(lm_wage2_1)
confint(lm_wage2_1,'educ')
#置信區間是[0.06309736 0.08906172]

C6.4 二次項的最優值

data_gpa2<-read.csv('/home/wangjianlong/files/programs/college_life/econometrics/excel_data_1/gpa2.csv',header = T)
#(1)
lm_gpa2<-lm(sat~hsize+I(hsize^2),data=data_gpa2)
summary(lm_gpa2)
#sat= 997.981+19.814hsize-2.131I(hsize^2)
#Adjusted R-squared:  0.007169 n=4137
#由於二次項係數t值對應的P值小於0.001,所以該變量是統計顯著的
#(2)
#最優規模在模型的最大值處取到，該值爲-19.814/(2*-2.131)*100
#最優規模爲464.8991
#(3)
#從調整的R方來看，該模型只解釋了學術成績變異的0.7%,這個解釋較小，所以不是最優代表
#(4)
lm_gpa2_1<-lm(log(sat)~hsize+I(hsize^2),data=data_gpa2)
summary(lm_gpa2_1)
#sat= 6.8960291 +0.0196029hsize-0.0020872I(hsize^2)
##最優規模在模型的最大值處取到，該值爲-0.0196029/(2*-0.0020872)*100
#最優規模爲469.598
#兩者結論差異不大

未完待續。（抱歉，最近較忙，後期有時間再補上）

伍德里奇計量經濟學導論之計算機操作題的R語言實現（一些重要專題）

引言

C6.1 二次項模型的加入以及解釋

C6.2二次項係數對因變量的解釋

C6.3二次項係數的置信區間

C6.4 二次項的最優值

R語言ggplot包之數據分佈彙總

R語言ggplot2包之註釋

R語言ggplot2包之畫直方圖

R語言ggplot2包之畫散點圖

利用python3 requests和BeautifulSoup4抓取百度貼吧研究生錄取通知書並展示

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結