原创 機器學習中幾種常見優化方法總結

1、梯度下降法 假設f(x)是具有一階連續偏導數的函數。要求解的無約束最優化問題是: 梯度下降法是一種迭代算法,選取適當的初值x(0),不斷迭代更新x的值,進行目標函數的極小化,直到收斂。由於負梯度方向是使得函數值下降最快的方向,所以在

原创 梯度下降算法、隨機梯度下降算法scala實現

梯度下降和隨機梯度下降是機器學習中最常用的算法之一。關於其具體的原理這裏不多做介紹,網絡上可以很方便的找到。例如可以參考博客:http://blog.csdn.net/woxincd/article/details/7040944

原创 白話scala系列二 scala入門的幾個基本知識

上一回,大概介紹了一下爲什麼要學scala和要在哪裏去寫代碼,這一回,我們來了解一下scala入門的幾個基本知識。 從變量定義說起。scala有兩種變量,val和var。val就像Java的final,一旦初始化了就不能再改變它的

原创 白話scala系列三 Scala編程難點解析

一直想找一篇關於scala和其他語言相比難點分析的文章,今天終於找到一篇,雖然有點囉嗦,但仔細閱讀後還是會有所體會。 原文鏈接:http://www.blogjava.net/hechi158/archive/2012/02/2

原创 SQL注入攻擊分析

SQL注入攻擊是黑客對數據庫進行攻擊的常用手段之一。隨着B/S模式應用開發的發展,使用這種模式編寫應用程序的程序員也越來越多。但是由於程序員的水平及經驗也參差不齊,相當大一部分程序員在編寫代碼的時候,沒有對用戶輸入數據的合法性進行判斷,使

原创 機器學習的學習路徑

一、爲什麼是列出一堆可以探索的書,而不是要去尋找一條路 機器學習的研究和應用已經有很長的時間了。隨着人類的發展,數據和計算能力都在不斷的增加,因此機器學習這幾年變得異常火熱,很多公司開始部署相關的部門。 常常在各種途徑看到和多

原创 Linux查看物理CPU個數、核數、邏輯CPU個數

# 總核數 = 物理CPU個數 X 每顆物理CPU的核數  # 總邏輯CPU數 = 物理CPU個數 X 每顆物理CPU的核數 X 超線程數 # 查看物理CPU個數 cat /proc/cpuinfo| grep "physical id"

原创 感知器的scala實現

其實感知器學習算法,就是利用第一節介紹的單層感知器。首先利用給的正確數據,計算得到輸出值,將輸出值和正確的值相比,由此來調整每一個輸出端上的權值。 公式便是用來調整權值,首先 是一個“學習參數”,一般我將它設置成小於1的正數。

原创 Linux 查看CPU信息的命令

㈠ 概念 ① 物理CPU 實際Server中插槽上的CPU個數 物理cpu數量,可以數不重複的 physical id 有幾個

原创 如何成爲一名數據科學家

摘自知乎一位大牛的推薦 作者:謝科 鏈接:https://www.zhihu.com/question/21592677/answer/24663656 來源:知乎 “Data Science = statistics wh

原创 spark 的相關配置

export HADOOP_HOME= /home/hadoop/hadoop-2.0.0-cdh4.5.0 export HADOOP_CONF_DIR= $HADOOP_HOME/etc/hadoop SPARK_EXECUT

原创 Kaggle 手寫識別題

原文鏈接:http://blog.csdn.net/wiking__acm/article/details/43491611 手寫體數字的識別,一個比較簡單的問題。主要是特徵太多,所以用PCA降維處理,然後用knn就可以得到一個

原创 Spark Shuffle實現 (轉載)

原文鏈接:http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 對於大數據計算框架而言,Shuffle階段的設計優劣是決定性能好壞的關鍵因素

原创 Xms Xmx PermSize MaxPermSize 區別

1.參數的含義 -vmargs -Xms128M -Xmx512M -XX:PermSize=64M -XX:MaxPermSize=128M -vmargs 說明後面是VM的參數,所以後面的其實都是JVM的參數了 -Xms128m

原创 訓練神經網絡的五大算法

神經網絡模型的每一類學習過程通常被歸納爲一種訓練算法。訓練的算法有很多,它們的特點和性能各不相同。 問題的抽象 人們把神經網絡的學習過程轉化爲求損失函數f的最小值問題。一般來說,損失函數包括誤差項和正則項兩部分。誤差項衡量神經網