原创 使用 R 進行敏捷數據科學-1

當我開始我的數據科學家職業生涯時,我並沒有真正的工作流程。在公司、潛在客戶和我之間,沒有人知道在“現實”世界中實施統計模型或機器學習方法意味着什麼。但是每個人都對這個“大數據”感興趣, 所以我們很快就開始做工作,但沒有明確我要做什麼。當我們

原创 R語言GUI開發

1 tcltk:Tk是一套在Unix-like,Mac,Windows下可移植的快速圖形開發工具ToolKit的縮寫。 2 RGtk2:跨平臺,而且開發難度也相對不高。 3 Qt:這個方案就是用Qt接受做圖參數,用R做圖再傳回給Qt。在GU

原创 從github上面獲取tar.gz 的R包文件

因爲我需要在離線服務器上面安裝R包,所以需要下載源碼。但是github上面只能下載zip包。那麼如何從github上面獲取R包的tar.gz 文件呢? 我找了好久沒有找到,找到另外一種解決方式: devtools::install_loca

原创 數字編碼法

數字00—99的編碼:0——樹;02——鴨子;03——耳朵;04——紅旗;05——鉤子;06——勺子;07——柺杖;08——葫蘆;09——球拍;0——棒球;——筷子;2——嬰兒;3——醫生;4——鑰匙;5——鸚鵡;6——楊柳;7——玉璽;8

原创 基金有幾大類

1、貨幣型基金:僅投資於貨幣市場工具的基金稱之爲貨幣基金,常見的貨幣市場工具包括銀行定期存款、商業本票、承兌匯票等。這些投資標的流動性較強,安全性較高,所以貨幣基金的收益較爲穩定,風險相對較低,不過收益率也普遍偏低,目前貨幣基金預期收益率平

原创 基金定投 支付寶上面進行基金定投

從整體來看,人在不同的年紀會承擔不同的經濟壓力,通常而言會有兩個波峯。 大多數人,在35歲左右會遇到一個消費高峯,在這個時期回遇到的問題包括置業,生育。第二個高峯是55歲的時候,這個時候是父母養老以及子女的支出。瞭解這個曲線可以幫助我們

原创 效應量

做AB測試很重要的一部分就是功效分析,功效分析給出了樣本量,第二類錯誤,顯著性水平和效應量的關係。 效應量是什麼?效應量就是衡量差別,例如R方。例如雙樣本t檢驗,p 值顯著,那麼就說明這兩個樣本有差異,差異有多大,就通過效應量來了解。 獻上

原创 R 語言- 使用循環創建滯後並根據列名計算累計和

問題: id = c("a", "a", "a", "b", "b") date = seq(as.Date("2015-12-01"), as.Date("2015-12-05"), by="days") v1 = sample(seq(

原创 R 中判斷是否不包含

在R中,判斷某一個值是否包含在某一個向量中,使用的是: %in% 那麼,如何判斷不包含? library(Hmisc) "A" %nin% "B" 也可以是: !(A%in%B)

原创 數據操作總結

1 reshaping 2 Subset obs 3 Subset Variable 4 summaries data 5 make new data 6 combine data 7 group data 關於數據的才做大致分爲這7類

原创 Rstudio 常用快捷鍵 - mac

1 插入section label command + shift +R 2 插入代碼快 command +option + I 3 註釋當前行 command+shift +c 4 自動美化代碼格式 control + shift +A

原创 ggplot2 中文亂碼

library(showtext) showtext_auto() 繪圖之前,加上這兩行代碼

原创 應用模型

a.用戶基礎研究:用戶生命週期刻畫(進入、成長、成熟、衰退、流失)、用戶細分模型、用戶價值模型、用戶活躍度模型、意願度識別模型、用戶偏好識別模型、流失預警模型、用戶激活模型等 b.個性化推薦算法:基於協同過濾(USERBASE/ITEMBA

原创 Prophet 時間序列預測工具 這套工具的價值 Prophet 的優點 Prophet 工作原理 總結

Facebook有一套開源的時間序列的預測工具。 Prophet是一個預測時間序列數據的模型。 它基於一個自加性模型,用來擬合年、周、季節以及假期等非線性趨勢。 它在至少有一年曆史數據的日常週期性數據,效果最好。 Prophet對缺失值,趨

原创 apply 函數族

apply(對矩陣、數據框和數組進行行列的操作) lapply(作用於列表和數據框,對列表中的每個元素進行循環操作;如果是數據框,則是按列進行操作;最終都返回列表) sapply(lapply的簡化版,返回值是向量) vapply(類似於s