原创 【線性迴歸】生產應用中使用線性迴歸進行實際操練

前提:本文中使用的算法是在《【線性迴歸】多元線性迴歸函數在Octave中的實現(二)》中進行描述。 命題: 根據生產環境的中的用戶功能使用情況,來推斷接下來的用戶使用量。 使用數據如下: x = 1 2 3

原创 mac系統下面調用brew報錯core_ext/kernel_require.rb:55:in `require': cannot load such file

mac系統下面調用brew報錯,如下所示: /usr/local/Homebrew/Library/Homebrew/vendor/portable-ruby/2.3.7/lib/ruby/2.3.0/rubygems/core_

原创 【線性迴歸】多元線性迴歸函數在Octave中的實現(二)

1、在《【線性迴歸】最簡單的線性迴歸函數在Octave中的實現(一)》的基礎上進行了擴展,主要是標識出來的那段代碼; 2、將訓練結果Thsl,【i(訓練集的條數),2(第一列訓練的次數,第二列是兩次訓練的方差的誤差)】,在訓練完成

原创 【Hive】常用命令以及SQL整理

知識點一: explode(split(get_json_object(fieldDataName,’$.str’),’,’)) 1、fieldDataName表示數據庫字段名; 2、$.str表示要從數據庫定中JOSN類型的字

原创 pycharm環境筆記

1、如果使用conda環境管理,不管是安裝的anaconda3或者是miniconda3,如何確保pip安裝的包可以在pychar環境中被正確的引用。 step1: 激活需要引用的包的環境:source activate %envNa

原创 [Pandas]Dataframe中切片常用技巧

1、根據值在是否在列表中進行切片: 方法一:使用isin方法可以根據DataFrame中的某列的值是否在某個列表中來進行切片(注意:這裏不要直接使用in,否則會報錯),代碼如下: pf = pd.DataFrame([['74-27-

原创 [Pandas]Dataframe中的多條件切片爲什麼不能使用and運算符

對於Dataframe中同一列,如果有多個條件,則不能使用and運算符,需要使用&位運算符。示例如下: import pandas as pd df = pd.DataFrame({'name':['a','a','b','b'],'

原创 【Hadoop】常用命令整理

知識點一: explode(split(get_json_object(fieldDataName,’$.str’),’,’)) 1、fieldDataName表示數據庫字段名; 2、$.str表示要從數據庫定中JOSN類型的字段中

原创 MasOS下面的Conda+PyCharm環境準備

原本是在Win7環境下面(虛擬機)安裝Conda的,但是在進行環境創建或者執行命令conda update --all的時候,會報 SSLError(MaxRetryError('HTTPSConnectionPool(host=\'

原创 [聚類算法]聚類算法中的K-Means實現以及驗證

K-Means聚類算法,感覺是接觸到目前爲止,距離程序員思維最近的算法,應該也是使用到的數理知識最簡單的算法。 所以在記筆記的時候,忍不住,又去實現了一把,但是根據吳大大(吳恩達)的介紹來看,的確是不需要每個算法都自己去寫的,而是需要

原创 【支持向量機】學習紀錄(關於對支持向量機核函數的理解、代價函數、向量機類型選擇)

關於支持向量機,沒有嘗試去使用代碼去實現,而是重點試着增加對支持向量機工作原因的理解。以下是學習筆記。 PART ONE: 關於對支持向量機核函數的理解 針對上圖中: 選擇三個點l(1)、l(2)、l(3),那麼針對一個點X(i)到

原创 【Python】Python連接Hadoop數據中遇到的各種坑(彙總)

最近準備使用Python+Hadoop+Pandas進行一些深度的分析與機器學習相關工作。(當然隨着學習過程的進展,現在準備使用Python+Spark+Hadoop這樣一套體系來搭建後續的工作環境),當然這是後話。 但是這項工作首要

原创 【邏輯迴歸】使用邏輯迴歸進行實際操練

數據源採集吳恩達教授第6課的練習數據(ex6data3.mat): 1、在Ocatve中導入數據; L1=load(‘ex6data3.mat’); 2、構建相關的記錄集,並使用Plot觀察數據: x=ones(size(L1.X)

原创 【導數與求解】機器學習中的常用高等數學

【導數與求解】機器學習中的常用高等數學

原创 【正則化應用】正則化在線性迴歸以及邏輯迴歸中的應用

命題: hθ(x)=y=θ0+θ1*x1+θ2*x2+θ3*x12+θ4*x22 正則化的思路需要分析每個參數對結果的影響,如果該參數對結果影響不大,則就需要把該參數拿掉,反之,則需要保留該參數。 如果我們θ3是一個很小的參數,例如: