原创 MySQL統計函數記錄——GROUP_CONCAT()函數

語法:  GROUP_CONCAT([DISTINCT] expr [,expr ...][ORDER BY {unsigned_integer |

原创 數據挖掘的標準流程

    CRISP-DM (cross-industry standard process for data mining), 即爲"跨行業數據挖掘過程標準". 此KDD過程模型於1999年歐盟機構聯合起草. 通過近幾年的發展,CRISP

原创 MySQL統計函數記錄——數值函數

可使用常見的算術操作符。注意就 -、 +和 *而言, 若兩個參數均爲正數,則其計算結果的精確度爲 BIGINT (64比特),若其中一個參數爲無符號

原创 R入門25招

第一招:下載和安裝R 問題: 要把R安裝到自己的電腦上。 解決方案: Windows和OS X用戶可以從CRAN(Comprehensive R Archive Network)上下載R。Linux和Unix用戶則可以用各自的包管理工具安

原创 Mahout中相似度計算方法介紹

        在現實中廣泛使用的推薦系統一般都是基於協同過濾算法的,這類算法通常都需要計算用戶與用戶或者項目與項目之間的相似度,對於數據量以及數據類型不同的數據源,需要不同的相似度計算方法來提高推薦性能,在mahout提供了大量用於計

原创 Linux環境下安裝R

在Ubuntu中,是用apt-get下載和安裝R。需要用sudo命令獲得必要的權限: 在Red Hat和Fedora則是用yum: Windows系統還提供了更加方便的圖形化包管理器。 除了基礎包,筆者還建議讀者把

原创 MySQL統計函數記錄——Join連接詳解

MySQL JOIN 語法概述 SQL(MySQL)JOIN用於根據兩個或多個表中的字段之間的關係,從這些表中得到數據。 JOIN通常與ON關鍵字搭配使用,基本語法如下: ... FROM table1 INNER|LEFT|RIGHT

原创 MySQL統計函數記錄——按條件計數

問題描述 爲使討論簡單易懂,我將問題稍作簡化,去掉諸多的背景。 從前有一個皇帝,他有50個妃子,這些妃子很沒有天理的給他生了100,000個兒子,於

原创 LINUX下SCP命令

設有兩機,均爲局域網,兩機可相互通信無問題,中間無防火牆。 兩機IP分別爲:A:192.168.1.1 B:192.168.1.2 假設A,B機的S

原创 在Java中使用CRC32

原文鏈接:http://www.tbk.ren/article/252.html 在優化關係數據庫的關聯查詢的時候,ON的字段選擇爲數值型,必須是會比字符型的數據快很多的,那麼如何將一個字符型的數據,唯一性地轉爲數值型呢?

原创 MySQL中的數值函數

原文鏈接:http://www.datastudy.cc/to/78     本文我們來介紹MySQL中常用的數值符號和函數。   +   加號:   mysql> SELECT 3+5; -> 8   -   減號:  

原创 Python pandas 數據框的str列內置的方法詳解

  原文鏈接:http://www.datastudy.cc/to/33         在使用pandas框架的DataFrame的過程中,如果需要處理一些字符串的特性,例如判斷某列是否包含一些關鍵字,某列的字符長度是否小於3等等這種

原创 Python中的數據類型

原文鏈接:http://www.datastudy.cc/to/86 Python中總共有六種數據類型,分別如下:   數字(Numbers) 字符串(String) 列表(List) 元組(Tuple) 集合(Set

原创 MySQL 使用 MRG_MyISAM 存儲引擎來實現分表

原文鏈接:http://www.datastudy.cc/to/83 MRG_MyISAM存儲引擎爲MySQL的其中一個存儲引擎,使用下面語句察看MYSQL數據庫是否支持該存儲引擎。     MERGE存儲引擎,也被認識爲MRG_

原创 如何對數據按某列進行分層處理

  原文鏈接:http://www.datastudy.cc/to/19 很多時候,我們拿到的數據,都是彙總的一份數據,例如我們示例中的數據,已經把所有倉庫的數據都彙總起來了。   但是我們在統計建模的時候,如果想要把他們拆分開