統計期刊閱讀筆記

2020.6.6
“提升編程能力在數據科學領域佔有一席之地 "
作者：阮敬（首都經濟貿易大學）
原文下載鏈接
期刊：《中國統計》
這個期刊影響因子並不很強，大概是零點幾吧；相比於《統計研究》（影響因子比較高），內容更爲通俗易懂，《統計研究》的文章還真是不是我這類文盲有興趣就能夠拜讀的……
《中國統計》刊登了好幾篇作者阮敬教授的文章，在這篇文章中，作者提到有關一開始的面向過程的編程語言特點，是一種科學思維每一步就是一個過程，過程之間有很強的連續性、邏輯性……然後又引用了一句恩格斯的哲學文章中的一句話----“必須先研究十五，而後才能研究過程；必須先知道一個事物是什麼，而後才能覺察到事物中所發生的變化”（出自《路德維繫·費爾巴哈和德國古典哲學的終結》），過渡到了面向對象的編程語言的理解 ……原來學經濟的人這麼看待這兩類語言😂，漲知識了。

學術報告 黃斐博士：預測模型和數據分析在精算領域的一些應用
文獻來源：狗熊會的一篇推送
英文摘要

Actuarial science is the discipline that applies mathmatical and statistical method to assess risk in insurance, finance and other industries and professions. This talk will first briefly introduce the profound connection between actuarial science and data science and why actuaries are called data scientists in the insurance field. After that, I will focus on sharing some actuarial research in the field of predictive modelling and data analytics using statistical and machine learning methods, including the application of tensor decomposition to predict morality rates , modelling advanced-age morality using extreme value theory , and exploring the impact of big data and indirect discrimination in the insurance pricing.

摘要部分

精算學（actuarial science）是一門運用數學和統計學方法評估和管理保險、金融等領域風險的學科（discipline）。本次演講首先爲大家簡單地介紹精算學和數據科學的深刻聯繫並解釋爲什麼精算師會被稱作保險領域的數據科學家（注意到這裏的後置定語in the insurance field緊挨着data science ,所以意在修飾數據科學家而非精算師）。之後，我將結合自己的研究介紹一些統計和機器學習方法在精算領域的應用，包括應用張量分解（tensor decomposition）預測死亡率,應用極值理論（extreme value theory）分析高齡死亡率，以及探討大數據和間接歧視（indirect discrimination）在保險定價的影響。

·model·這個詞，不能老是乾巴巴地譯成“建模”，還可以像上述翻成“分析”（多麼廣泛的小詞啊🤓）
學術報告內容部分筆記：
精算主要是衡量和管理風險與不確定性，這和主要研究不確定性的統計學有着緊密聯繫，比如精算師克萊姆受工作的影響在統計學領域做了很多貢獻，還有柯爾莫哥洛夫也在精算雜誌上面發表期刊；精算師需要概率論、統計學、計算科學、經濟學、金融等知識儲備。
黃斐博士主要介紹了自己的兩篇文章，分別對分析人口死亡率、高齡人口死亡率的預測和大數據時代下間接歧視（proxy/indirect discrimination）等做了簡單介紹。
其中，提到矩陣分解中的張量分解（tensor decompositon），它和SVD分解的區別在於：SVD適用於2維數據的降維處理，而張量分解是對3維及其以上的降維處理；
The Truck Decomposition 像是擴展版的SVD，通過中間插一個cube，允許秩不相同的矩陣做乘法。
年齡和人口死亡率的圖像大致呈對勾型，也就是說嬰兒和老人的死亡率相對較高，而且老人的死亡率波動性較強，不便於分析和預測。
在醫療保障體系逐漸完善和人口老齡化的今天，壽險（Life insurance）需要對於高齡人口死亡率進行預測，而現在科研值得注意的是壽險運用的極值理論，和統計學中的極值理論不同的是，它不丟棄非極值數據。
現有的方法有Threshold life ，缺點是不光滑，不連續，有跳躍點，據此，黃斐博士提出Smooth Threshold Life Table Model，得到光滑的、連續的模型。
保險精算中所提到的歧視是中性詞，是一種合理的歧視，具體比如：20歲的人買壽險和50歲的人，買壽險價格是不同。而在實際中，有些國家是明文規定不允許保險對諸如種族、國籍、性別差異做不同定價的。興起的大數據進一步暴露了歧視問題的存在，並有了潛在歧視（ proxy discrimination）的概念。什麼是潛在歧視？黃老師舉了一個簡單的例子：根據要求，保險公司是不允許根據司機性別做不同的車險定價，但是大數據可以分析出一個與性別極爲相近的變量，並利用這個變量做不同的車險定價，比如說男士更喜歡使用帶有大發動機的車子，而女士喜歡用帶有小發動機的。
具體消除歧視的方法，有：數據預處理、模型正則化
對模型結果進行處理等。
我感覺很多大拿在聽這個報告，因爲會後的提問都很有水平……

2020/6/10
學術報告 基於移動設備SDK脫敏數據的地區人羣聚集度與疫情發展的相關研究
報告人：周靜，中國人民大學統計學院
資源來源：狗熊會的一篇推送
整體來說，工作大概是根據實際疫情防控的需要，構造了一個地區人羣聚集度（CNN）的指標，用來識別高風險地區和評價各地區的隔離管控力度。構造過程大概是基於描述分析的手段進行分析，不斷嘗試……（大概聽着是這意思）
數據來源：極光大數據提供SDK脫敏數據。
SDK：software development kit ,軟件開發工具包，好像是一段程序，被嵌入在APP的安裝包中，就會採集使用APP的終端信息。
脫敏數據：在不妨礙科研需要的情況下，脫離敏感信息（涉及用戶隱私等）的數據。
貌似沒什麼新知識……

2020/6/18
如何用數據說話
報告人：王兆軍，南開大學統計與數據科學學院
John-Tuky ,提出FFT（快速傅里葉變換）、箱線圖（Box-Plot）
費希爾根據女士品茶提出了假設檢驗，值得一提的是女士品茶是小樣本問題，而小樣本問題並不是樣本容量越大越好，這是與大樣本問題的顯著區別。
Carl.Pearson一開始在德國學哲學，後來深受導師Karl馬克思的影響，於是將自己的姓改爲了Karl，他就孟德爾的豌豆雜交實驗提出了擬合優度檢驗。
南丁格爾發現士兵多半死於病後感染不能及時醫治，提出玫瑰圖，說服英國當局開設戰地醫院。

統計期刊閱讀筆記

DAPPER 事務 TRANSACTION

大創學習筆記（3）

《女士品茶》讀書筆記

【SQL server】創建、修改、刪除數據庫及其相關文件

運籌學Operations Research--線性規劃

代數(2)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結