台部落zxy

今天弄了一個商家分層，下面說說我的理解~~~ 商家分層可以借用用戶分層最經典模型——RFM模型，即收益（M）、最近一次收益時間（R）、收益頻數（F）。可以根據自己模型可以再加上其他指標，這樣模型就完整了。說白了商家分層就是要

2020-02-23 17:53:36

偏度：偏度用於衡量x的對稱性。若偏度爲負，則x均值左側的離散度比右側強；若偏度爲正，則x均值左側的離散度比右側弱；對於正態分佈(或嚴格對稱分佈)偏度等於0峯度：峯度用於度量

2020-02-23 17:53:36

一下的代碼風格是基於Google的 R 用戶羣體協同設計而成文件命名：以 .R 結尾（一般保存時會自動設定）單行長度：一般不超過 80 個字符串（不要超過編輯窗口）縮進：兩個空格，不使用製表符（永遠不要使用製表符或混合使用二

2020-02-23 17:53:36

t.test(x, y = NULL, alternative = c("two.sided", "less","greater"), mu= 0, paired = FALSE, var.equal = FAL

2020-02-23 17:53:36

經常需要根據的需求把多張圖放在一頁，這是facet_wrap和facet_grid並不管用，基本函數mpar在ggplot函數中並不能實現。以

2020-02-23 17:53:36

facet_wrap（封裝）和facet_grid（網格）在一頁上可以放多個圖網格型：生成是一個2維的面板網格，面板的行與列通過變量定義 1、一行多列‘.~a’(比較適合數據的展示) ggplot(data = mpg, aes(x

2020-02-23 17:53:36

一、單選題 1.某超市研究銷售紀錄數據後發現，買啤酒的人很大概率也會購買尿布，這種屬於數據挖掘的哪類問題？(A) A. 關聯規則發現 B. 聚類 C. 分類 D. 自然語言處理 2.以下兩種描述分別對應哪兩種對分類算法的評價標準？ (

2019-03-07 19:06:50

關聯規則是無監督學習，是用於知識發現，而並非預測。支持度：數據庫D中事務同時包含X、Y的百分比置信度：數據庫D中事務包含X的情況下，包含Y的百分百注：若滿足最小支持度閾值和最小置信度玉墜，則認爲關聯規則是有趣的。但此閾值是根據挖掘需要認

2018-09-01 20:56:33

指標統計量的輸出：均值、方差、標準差、偏度、峯度等位置：分析--->報告一、在線分析處理報告器（OLAP）該過程對於按一個或多個分組變量所分的組，計算所考察的連續變量的總值、均值並且以分層的方式輸出，每一層是根據一個分組變量的結果輸

2018-09-01 20:56:32

在客觀世界中會遇到各種各樣隨時間變動的數據序列，我們關心這些數據隨時間變化的規律（增長或者下降的趨勢）。例如GDP是否逐年增長，某種疾病的患者是否在不斷減少，這時我們就要對該序列進行趨勢檢驗。假設數據序列x1,x2,x3,……,xn獨立，

2018-09-01 20:49:12

數據要求：單峯對稱分佈，數據在其兩邊分佈的疏密情況是對稱的很過不對稱的單峯數據分佈可能通過變換化爲對稱分佈。多峯分佈通過混合分佈整體表示後，每一個分佈也可以用單峯對稱的分佈表示。就對稱分佈而言，對稱中心只有一個，中位數卻可能有很多個。

2018-09-01 20:49:12

stringr包函數處理文本是遊刃有餘的一、元字符在正則表達式中，有12個字符有特殊用途字符含義 [ ] 括號內的任意字符串 \ 有兩個含義：1、對元字符串進行轉義 2、一些以 \ 開頭的特殊序列表達了一些字符串組 ^

2018-09-01 20:49:12

在實際中，我們經常考慮一個序列中的數據出現是否與順序無關，這關係到數據是否獨立。一個典型的序列是二元0/1序列出現的隨機性問題。在一個二元序列中，0和1交替出現。首先引入概念：在一個二元序列中，一個由0或1連續構成的串成爲一個遊程，一個遊

2018-09-01 20:49:11

一顆決策樹包含一個根結點、若干個內部結點和若干個葉結點；葉結點對應於決策結果，其他每個結點則對應於一個屬性測試；每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中；根結點包含樣本全集。從根結點到葉結點的路徑對應於了一個判定測試序列。

2018-09-01 20:49:11

樸素貝葉斯是一種十分簡單的分類算法，是一種基於概率的分類器，它源於貝葉斯理論，假設樣本屬性之間相互獨立。思路：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，那個最大，就認爲此待分類項屬於那個類別。三個階段： 1）準備

2018-09-01 20:49:11