原创 文章標題

今天弄了一個商家分層,下面說說我的理解~~~ 商家分層可以借用用戶分層最經典模型——RFM模型,即收益(M)、最近一次收益時間(R)、收益頻數(F)。可以根據自己模型可以再加上其他指標,這樣模型就完整了。 說白了商家分層就是要

原创 r語言 偏度峯度

偏度: 偏度用於衡量x的對稱性。          若偏度爲負, 則x均值左側的離散度比右側強;          若偏度爲正, 則x均值左側的離散度比右側弱;         對於正態分佈(或嚴格對稱分佈)偏度等於0峯度: 峯度用於度量

原创 r語言 代碼風格

一下的代碼風格是基於Google的 R 用戶羣體協同設計而成 文件命名: 以 .R 結尾(一般保存時會自動設定) 單行長度: 一般不超過 80 個字符串(不要超過編輯窗口) 縮進: 兩個空格,不使用製表符(永遠不要使用製表符或混合使用二

原创 R語言 t.test()

t.test(x, y = NULL,       alternative = c("two.sided", "less","greater"),        mu= 0, paired = FALSE, var.equal = FAL

原创 一頁多圖

 經常需要根據的需求把多張圖放在一頁,這是facet_wrap和facet_grid並不管用,基本函數mpar在ggplot函數中並不能實現。  以

原创 R語言 分面

facet_wrap(封裝)和facet_grid(網格)在一頁上可以放多個圖 網格型:生成是一個2維的面板網格,面板的行與列通過變量定義 1、一行多列‘.~a’(比較適合數據的展示) ggplot(data = mpg, aes(x

原创 數據分析筆試題目(一)

一、單選題 1.某超市研究銷售紀錄數據後發現,買啤酒的人很大概率也會購買尿布,這種屬於數據挖掘的哪類問題?(A) A. 關聯規則發現 B. 聚類 C. 分類 D. 自然語言處理   2.以下兩種描述分別對應哪兩種對分類算法的評價標準? (

原创 關聯規則

關聯規則是無監督學習,是用於知識發現,而並非預測。支持度:數據庫D中事務同時包含X、Y的百分比置信度:數據庫D中事務包含X的情況下,包含Y的百分百注:若滿足最小支持度閾值和最小置信度玉墜,則認爲關聯規則是有趣的。但此閾值是根據 挖掘需要認

原创 統計報表

指標統計量的輸出:均值、方差、標準差、偏度、峯度等 位置:分析--->報告 一、在線分析處理報告器(OLAP) 該過程對於按一個或多個分組變量所分的組,計算所考察的連續變量的總值、均值並且以分層的方式輸出,每一層是根據一個分組變量的結果輸

原创 R語言 Cox-Stuart趨勢檢驗

在客觀世界中會遇到各種各樣隨時間變動的數據序列,我們關心這些數據隨時間變化的規律(增長或者下降的趨勢)。例如GDP是否逐年增長,某種疾病的患者是否在不斷減少,這時我們就要對該序列進行趨勢檢驗。假設數據序列x1,x2,x3,……,xn獨立,

原创 單一樣本Wilcoxon符號秩檢驗

數據要求:單峯對稱分佈,數據在其兩邊分佈的疏密情況是對稱的 很過不對稱的單峯數據分佈可能通過變換化爲對稱分佈。多峯分佈通過混合分佈整體表示後,每一個分佈也可以用單峯對稱的分佈表示。就對稱分佈而言,對稱中心只有一個,中位數卻可能有很多個。

原创 R語言 正則表達式 stringr包

stringr包函數處理文本是遊刃有餘的 一、元字符 在正則表達式中,有12個字符有特殊用途 字符 含義 [ ] 括號內的任意字符串 \ 有兩個含義:1、 對元字符串進行轉義     2、一些以 \ 開頭的特殊序列表達了一些字符串組 ^

原创 隨機遊程檢驗

在實際中,我們經常考慮一個序列中的數據出現是否與順序無關,這關係到數據是否獨立。一個典型的序列是二元0/1序列出現的隨機性問題。在一個二元序列中,0和1交替出現。首先引入概念:在一個二元序列中,一個由0或1連續構成的串成爲一個遊程,一個遊

原创 R語言 決策樹及其實現

一顆決策樹包含一個根結點、若干個內部結點和若干個葉結點;葉結點對應於決策結果,其他每個結點則對應於一個屬性測試;每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中;根結點包含樣本全集。從根結點到葉結點的路徑對應於了一個判定測試序列。

原创 R語言 樸素貝葉斯

樸素貝葉斯是一種十分簡單的分類算法,是一種基於概率的分類器,它源於貝葉斯理論,假設樣本屬性之間相互獨立。 思路:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,那個最大,就認爲此待分類項屬於那個類別。 三個階段: 1)準備