原创 最優化第二講——一維搜索法(斐波那契法和java實現)

先看一下斐波那契數列 這個很容易理解,就是當前的值等於前兩個值的和 斐波那契法的遞歸結構如下 步驟一:我們首先要知道需要精確到的區間長度,例如要在[1, 10]之間搜索極小值點,希望精確到0.5之間,那麼也就是我最後要求得

原创 hadoop全局變量問題

在實際使用的場景中,我們會遇到這樣的問題,就是需要讀取一個全局性的變量,例如,我希望日期是一個全局性的變量,在map和reduce中都可以使用,例如在reduce中建表的時候會使用這個值 現在有兩種場景和方法 1. 這個全局量是固定的,例

原创 maxent:最大熵模型的java實現,GIS訓練

先給出實現的代碼,以後再進行一些理論的概述 訓練樣本 Outdoor Sunny Happy Outdoor Sunny Happy Dry Outdoor Sunny Happy Humid Outdoor Sunny Sad Dry

原创 最優化第二講—一維搜索算法(二分法、等區間法)

本講主要列一下單峯搜索算法 問題:f(x)在區間[a,b]內只有一個極小值點,要找到這個極小值點或者這個極小值點所在的區間[x1,x2],其中[x1, x2]要遠遠小於[a, b] 方法: 一個通用的結論 要縮小區間,必須計算兩個點,如

原创 DSP、Trading Desk、Exchange、SSP :解讀廣告生態圈

目前,國內網絡廣告行業基於RTB協議構建廣告生態圈的發展方向越來清晰,DSP、Trading Desk、Exchange、SSP等平臺在數量上增加迅速,國內從事廣告網絡的廣告公司、4A公司、第三方監測公司以及各大巨頭紛紛參與進來,基於

原创 最優化算法學習

最新學習了最優化相關的一些知識,爲便於記憶,整理成最優化相關的http://系列,初學者,難免很多地方的理解有偏差,望指正 1. 最優化第一講——概念 2. 一維搜索算法 最優化第二講—一維搜索算法(二分法、等區間法) 最優化第二講——一

原创 騰訊大數據之 TDW 計算引擎解析——Shuffle

騰訊分佈式數據倉庫基於開源軟件Hadoop和Hive進行構建,TDW計算引擎包括兩部分:MapReduce和Spark,兩者內部都包含了一個重要的過程—Shuffle。本文對Shuffle過程進行解析,並對兩個計算引擎的Shuffle

原创 minhash算法

在實際應用的過程中,相似性度量和計算是非常常用的一個方法,例如網頁去重、判斷帖子是否相似、推薦系統衡量物品或者用戶的相似度等等,當數據量大的時候,計算的時間和空間複雜度就會是一個非常重要的問題,例如在判斷相似發帖的時候,我們可以用kmea

原创 shuffle過程的簡單描述

shuffle是處在map和reduce之間的過程。我們看一下這個過程都有哪些步驟,對這個問題了解的並不深,可能有錯誤,忘指正 1. map map輸出key,value,對應代碼裏的context.write(key, value);,

原创 shuffle過程詳解

轉自:http://langyu.iteye.com/blog/992916  Shuffle過程是MapReduce的核心,也被稱爲奇蹟發生的地方。要想理解MapReduce, Shuffle是必須要了解的。我看過很多相關的資料,但每次

原创 邏輯迴歸的相關問題及java實現

本講主要說下邏輯迴歸的相關問題和具體的實現方法 1. 什麼是邏輯迴歸 邏輯迴歸是線性迴歸的一種,那麼什麼是迴歸,什麼是線性迴歸 迴歸指的是公式已知,對公式中的未知參數進行估計,注意公式必須是已知的,否則是沒有辦法進行迴歸的 線性迴歸指的是

原创 hadoop下實現kmeans算法——一個mapreduce的實現方法

寫mapreduce程序實現kmeans算法,我們的思路可能是這樣的 1. 用一個全局變量存放上一次迭代後的質心 2. map裏,計算每個質心與樣本之間的距離,得到與樣本距離最短的質心,以這個質心作爲key,樣本作爲value,輸出 3.

原创 數據挖掘之lsh minhash simhash

http://blog.csdn.net/hxxiaopei/article/details/7977248 在項目中碰到這樣的問題: 互聯網用戶每天會訪問很多的網頁,假設兩個用戶訪問過相同的網頁,說明兩個用戶相似,相同的網頁越多

原创 最優化第二講——一維搜索法(牛頓法)

牛頓法可以用來解決兩種問題,其實本質上也是一種問題,就是方程求根,只不過一個是求f(x)=0的根,一個是求f(x)的導數=0的根 1. 無約束函數f(x) = 0的根 有兩種方式可以解釋一下牛頓法 切線法 這種方式就是不斷的

原创 最優化第二講——一維搜索法(黃金分割法和java實現)

新區間的長度L(n),舊區間的長度L(n-1)。L(n)/L(n-1)  = 0.618 所以查找速度:0.618^n。 公式爲:   這個比較容易理解,看代碼就可以看清楚了,主要是區間的更新問題,每次更新長度都變化爲原來的0.