原创 Mac新手開發者必瞭解知識點

1、Mac下打開多個終端的方法     1.焦點在終端上(使用鼠標點擊下終端),使用快捷鍵command+N 即可得到另一個終端界面(如果現在光標的焦點在瀏覽器上,那麼就是新打開一個瀏覽器窗口);     2.光標的焦點在終端上,

原创 IntelliJ IDEA的安裝、破解和插件配置

參考: https://www.imooc.com/video/14403 https://blog.csdn.net/zmx729618/article/details/71159225 https://www.jianshu.

原创 機器學習有價值的文章鏈接

1.SVM:任意點到超平面的距離公式 2.幾種範數的簡單介紹 3.一個向量在另一個向量上的投影:向量a在向量b上的投影長度是a*b/|b| 4.梯度下降總結 5.最小二乘法總結 6.超平面的理解 7.貝葉斯定理總結 8.極大似然估

原创 Mac下spark的安裝和完整的開發環境搭建

Spark是Scala寫的,是運行在JVM環境上,需要java7以上; 如果要安裝python API,則要安裝python 2.6或者python3.4以上; 搭建Spark不需要Hadoop 集羣,如果已經有hadoop集羣,

原创 python及其相關依賴包的安裝

1、安裝python 官網https://www.python.org/下載python3.7,直接雙擊安裝包進行安裝,然後配置系統環境變量的path變量,添加 C:\install\Python\Python37 和 C:\i

原创 Mac下環境變量的配置

方法1: vim /etc/profile 或 sudo vim /etc/profile 並使之生效 source /etc/profile 無效的話可以再重啓一下終端 方法2: ./.bash_profile sourc

原创 精確率與召回率,ROC曲線與PR曲線

在機器學習的算法評估中,尤其是分類算法評估中,我們經常聽到精確率(precision)與召回率(recall),ROC曲線與PR曲線這些概念,那這些概念到底有什麼用處呢?首先,我們需要搞清楚幾個拗口的概念: 1. TP, FP, TN

原创 梯度下降/上升總結

在求解機器學習算法的模型參數,即無約束優化問題時,梯度下降(Gradient Descent)是最常採用的方法之一,另一種常用的方法是最小二乘法。這裏就對梯度下降法做一個完整的總結。 1.梯度 在微積分裏面,對多元函數的參數求∂偏導數

原创 交叉驗證法總結

交叉驗證是在機器學習建立模型和驗證模型參數時常用的辦法。交叉驗證,顧名思義,就是重複的使用數據,把得到的樣本數據進行切分,組合爲不同的訓練集和測試集,用訓練集來訓練模型,用測試集來評估模型預測的好壞。在此基礎上可以得到多組不同的訓練集

原创 最小二乘法總結

最小二乘法是用來做函數擬合或者求函數極值的方法,在機器學習,尤其是迴歸模型中,經常可以看到最小二乘法的身影,這裏對最小二乘法做一個小結。 1.最小二乘法的原理與要解決的問題        最小二乘法,原理的一般形式很簡單,形式如下式:

原创 統計學習每一章學習中參考的文章記錄

第2章 感知機 1.SVM:任意點到超平面的距離公式:https://blog.csdn.net/wzx479/article/details/83143280?utm_source=blogxgwz9 2.幾種範數的簡單介紹:htt

原创 spark開發中問題記錄

1.map和mapPartitions函數的區別: mapPartitions函數和map函數類似,只不過映射函數的參數由RDD中的每一個元素變成了RDD中每一個分區的迭代器。如果在映射的過程中需要頻繁創建額外的對象,使用mapPar

原创 Sublime Text MAC版下載安裝

https://www.jianshu.com/p/ab8e79220414

原创 spark中map()和flatmap()的區別

先過一下定義: map()是將函數用於RDD中的每個元素,將返回值構成新的RDD。 flatmap()是將函數應用於RDD中的每個元素,將返回的迭代器的所有內容構成新的RDD,這樣就得到了一個由各列表中的元素組成的RDD,而不是一個列

原创 滴滴出行/微軟/阿里巴巴-算法實習生面試經驗

最近滴滴實習事情比較多,先把目錄列出來,國慶假期再好好補充一下內容,都是乾貨! 另外,有需要內推滴滴的,可以找我,實習生和正式員工都可以,技術崗和行政崗都可以。 這次實習大概投了二十家公司(實習僧),全部是算法實習崗,偏機器學習和數據