原创 面試機器學習、數據挖掘、大數據崗位時遇到的各種問題

平臺研究類 數據計算平臺搭建,基礎算法實現,當然,要求支持大樣本量、高維度數據,所以可能還需要底層開發、並行計算、分佈式計算等方面的知識; 算法研究類 文本挖掘,如領域知識圖譜構建、垃圾短信過濾等; 推薦,廣告推薦、APP 推

原创 2-Scala語法

數據類型 Scala有7種數值類型:Byte、Char、Short、Int、Long、Float和Double,以及2種非數值類型:Boolean和Unit(只有一個值“()”,相當於java和c++中的void,即空值)。

原创 Python之堆排序算法實現

#!/usr/bin/python import heapq #第一種方法是根據堆排序的原理實現的。 def fixdown(a,k,n):#自頂向下堆化 N =n-1; while 2*k<=N: j=2*k;

原创 P2P風控措施和風控流程

P2P是一種跳過銀行間接貸款融資模式的一種在借款人和出借人之間直接發生借貸關係的業務模式,那麼理解P2P的風險是什麼就很簡單,就是借款人不能償還借款的風險。但是無論哪個借款人總會有償付不了借款的可能性(或者叫概率),所有金融類公

原创 CNN(卷積神經網絡)、RNN(循環神經網絡)、DNN(深度神經網絡)的內部網絡結構有什麼區別?

      神經網絡技術起源於上世紀五、六十年代,當時叫感知機(perceptron),擁有輸入層、輸出層和一個隱含層。輸入的特徵向量通過隱含層變換達到輸出層,在輸出層得到分類結果。早期感知機的推動者是Rosenblatt。      

原创 BFS和DFS算法原理(通俗易懂版)

DFS 算法 思想:一直往深處走,直到找到解或者走不下去爲止 BFS算法 DFS:使用棧保存未被檢測的結點,結點按照深度優先的次序被訪問並依次被壓入棧中,並以相反的次序出棧進行新的檢測。 BFS:使用隊列保存未被檢測的結點。結點按照

原创 線性代數的本質-20160614總結

首先說說空間(space),這個概念是現代數學的命根子之一,從拓撲空間開始,一步步往上加定義,可以形成很多空間。線形空間其實還是比較初級的,如果在裏面定義了範數,就成了賦範線性空間。賦範線性空間滿足完備性,就成了巴那赫空間;賦範

原创 Python之快速排序算法實現(一)

#!/usr/bin/python def qsort(seq): if seq==[]: return []; else: pivot = seq[0];

原创 Deep Belief Networks深信度網絡

DBNs是一個概率生成模型,與傳統的判別模型的神經網絡相對,生成模型是建立一個觀察數據和標籤之間的聯合分佈,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅而已評估了

原创 Python之快速排序算法實現(二)

相對於算法實現(一),下面這個實現過程更容易理解: #!/usr/bin/python class sort: def quicksort2(self,seq,left,right): i = left; j

原创 GBDT迭代決策樹的入門教程

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起

原创 10 mins 搞懂“倒排索引”

單詞-文檔矩陣 單詞-文檔矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖1展示了其含義。圖1的每列代表一個文檔,每行代表一個單詞,打對勾的位置代表包含關係。 從縱向即文檔這個維度來看,每列代表文檔包含了哪些單

原创 廣告算法所需要搞懂的基礎知識

先簡單解釋下基本的:DSP(Demand Side Platform)是需求方平臺,負責接受投放需求,找人羣數據,實現投放競價等功能的那麼一箇中央管理控制平臺。DMP(Data Management Platform)是數據管理平臺,負責

原创 Restricted Boltzmann Machine (RBM)限制波爾茲曼機

假設有一個二部圖,每一層的節點之間沒有鏈接,一層是可視層,即輸入數據層(v),一層是隱藏層(h),如果假設所有的節點都是隨機二值變量節點(只能取0或者1值),同時假設全概率分佈p(v,h)滿足Boltzmann 分佈,我們稱這個模