原创 python裏的%操作符

用途一:%操作符作爲轉換說明符(字符串格式化,string formatting),說明如下: %[(name)][flags][width].[precision]typecode (name)爲命名 flags可以有+,-

原创 系列之二:Spark裏使用Anaconda實現

介紹 上一篇文章,詳細介紹瞭如何在Linux系統安裝Spark。 詳細瞭解請點擊:系列之一:Linux系統安裝單機版Spark 但還遺留一個問題,就是PySpark使用的是Linux默認的Python2.7.5版本(見下圖)。

原创 python裏map,reduce,filter函數

map() 映射,內置函數map()可以將一個函數依次映射到序列或迭代器對象的每個元素上,並返回一個可迭代的map對象作爲結果,map對象中每個元素是原序列中元素經過該函數處理後的結果,該函數不對原序列或迭代器對象做任何修改。 要

原创 模型性能度量,分類算法評價

總述: 爲了評估機器學習算法在某項任務中好壞,需要我們設計方法去度量性能,比如,在分類任務中,我們經常衡量模型的精度(accuracy),即正確分類數據與全部分類數據的比值。與之相對應,我們去測量錯誤分類數據在全部分類數據比例,稱之爲錯誤

原创 Python裏pip介紹、安裝與使用

pip介紹 pip 是 Python 包管理工具,該工具提供了對Python 包的功能: 查找 下載 安裝 卸載 目前在 python.org 下載最新版本的安裝包,則是已經自帶了該工具。 Python 3.4+ 以上版本都自

原创 推薦算法初步_算法總覽

目錄 1. 什麼是推薦算法 2. 推薦算法的目的 3. 推薦算法的條件 4. 推薦算法分類 4.1 基於流行度的推薦算法 4.2 基於內容的推薦算法 4.3 基於關聯規則的推薦算法 4.4 基於協同過濾的推薦 4.4.1 基於用戶(Use

原创 機器學習裏數據預處理及特徵工程總結

         機器學習裏有一句名言:數據和特徵決定了機器學習的上限,而模型和算法的應用只是讓我們逼近這個上限。這個說法形象且深刻的提出前期數據處理和特徵分析的重要性。這一點從我們往往用整個數據挖掘全流程60%以上的時間和精力去做建模前

原创 模型性能度量(查準率、查全率,平衡點和F1度量)

總述: 爲了評估機器學習算法在某項任務中好壞,需要我們設計方法去度量性能,比如,在分類任務中,我們經常衡量模型的精度(accuracy),即正確分類數據與全部分類數據的比值。與之相對應,我們去測量錯誤分類數據在全部分類數據比例,稱之爲錯誤

原创 數據降維方法及Python實現

一、數據降維瞭解 1.1、數據降維原理:機器學習領域中所謂的降維就是指採用某種映射方法,將原高維空間中的數據點映射到低維度的空間中。降維的本質是學習一個映射函數 f : x->y,其中x是原始數據點的表達,目前最多使用向量表達形式。

原创 hive裏建內部表和外部表示例

hive裏建內部表 CREATE TABLE MID_YW_NUMBER_2( yw_mdn STRING, prov_id STRING, operators INT, bw

原创 基於R語言的數據標準化處理腳本

數據標準化(Normalization) 將數據按比例縮放,使之落入一個小的特定區間。去除數據的單位限制,將其轉化爲無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。 數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。

原创 幾種交叉驗證方法介紹及對比

交叉驗證 交叉驗證是一種用來評價一個訓練出的模型是否可以推廣到另一個數據結構相同的數據集上的方法。主要用於PCR 、PLS 迴歸建模等建模應用中。 交叉驗證有時也稱爲交叉比對,如:10折交叉比對。主要用於估計一個預測模型在實際數據應用中的

原创 幾種集成算法(Random Forest、GBM、AdaBoost)的實現、對比及再組合應用

集成算法簡單介紹 以往我們接觸過很多算法,而每種算法都有不同的使用領域,例如線性可分和線性不可分。在現實世界裏,我們遇到的很多難題往往能用“集體智慧”、“專家彙集”等方式來解決或者更好的解決,那麼在機器學習世界裏,對於一個複雜的任務,我們

原创 Python代碼前幾行聲明是什麼

舉個例子 #!/usr/bin/python # -*- coding: UTF-8 -*- i = int(input('輸入值:')) I = [1000000,600000,400000,0] r = [0.01,0.015,0.

原创 基於R語言的數據處理及清洗簡單彙總

查看目錄及更改目錄 getwd() #查看工作目錄 setwd("E:/工作文件/model") #改變工作目錄 安裝及釋放包 install.packages("packge-name") #安裝包 detach(package