原创 樹模型總結

簡介   基於樹的學習算法模型的精確率高,容易解釋。與線性模型不同,基於樹的模型能夠很好的表達非線性關係 什麼是決策樹?它是如何工作的?   決策樹是一種監督學習算法,輸入和輸出變量可以是離散值或連續值。在決策樹中,我們根據輸入變量中最具

原创 Hive問題總結

Hive表關聯查詢,如何解決數據傾斜的問題 傾斜原因: map 輸出數據按key Hash的分配到reduce中,由於key分佈不均勻、業務數據本身的特性等原因造成reduce 上的數據量差異太大 1)key分佈不均勻 2)業務數

原创 cs224n 第一課:自然語言處理與深度學習

作者:deta 時間:2018/07/23 以下是斯坦福公開課cs224n 自然語言處理與深度學習的第一節課的筆記。主要是用作個人備忘用,能力有限,其中存在的問題歡迎大家包容和指正。學習材料可以去課程主頁下載,慕課網上也有免費的中

原创 上半年總結

     一轉眼18年過去一半了,自己工作也已經兩年了。回顧自己工作的兩年時間,自己在很多方面發現都缺少總結,花了很多時間在一些無意義的事情上。下半年開始重新再出發,在工作技術方面多去總結和思考,下半年需要做的東西 技能知識 系

原创 算法問題整理

svm 問題 參考: 原理: svm是一種二分類模型,基本模型是在特徵空間中尋找==間隔最大化==的分離超平面的線性分類器 [x] 線性可分時 [x] 近似線性可分時 [x] 線性不可分時    利用間隔最大化求得最優分離超平面,解是

原创 線性時間排序

在最壞情況下任何比較排序算法都需要做Ω(nlgn)次比較 計數排序:假設輸入的數據都屬於一個小區間內的整數 Counting-sort(A,B,k) 1. let c[0..k] be a new array 2. for i=0

原创 紅黑樹

1. 滿足下面紅黑性質的二叉搜索樹 1、每個節點或是紅的或是黑色 2、根節點是黑色 3、每個葉結點是黑色 4、如果一個葉結點是紅色,那麼它的兩個子節點都是黑色的 5、對每個節點,從該節點到其後代葉結點的簡單路徑上,均包含相同數目的黑色節

原创 cs224n 第二課:詞向量表示 word2vec

作者:deta 時間:2018/07/26 1、計算機中怎樣表達每個詞的含義了? 在英文中,一般用WordNet等分類資源來處理詞義,啥意思了?就像我們查中華字典一樣,查熊貓的解釋是:有胎盤的、活的、哺乳類動物, 通過這樣一種 is-

原创 建模方法流程

確定建模的目標:是分類問題還是迴歸問題或是無監督學習問題 對數據進行分析 數據挖掘之特徵工程 特徵:數據中抽取出來的對結果預測有用的信息 特徵工程是使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法中發揮更好作用的過程 特徵工

原创 分治策略

最大子數組問題 FIND-MAX-CROSSING-SUBARRAY(A,low,mid,high) //查找跨越中點的最大子數組 left-sum=-∞ sum=0 for i=mid downto low sum=sum

原创 快速排序

算法的關鍵部分是PARTITION過程,實現了對數組A[p..r]的原址排序 PARTITION(A,p,r) x=A(r) i=p-1 for j=p to r-1 if A[j]<x i=i+1

原创 哈希表

1、直接尋址表 全域U很大的時候,容易導致內存不足;實際存儲的關鍵字集合K相對U來說可能很小使得分配給T的大部分空間都被浪費掉。 2、哈希表 兩個關鍵字可能同時映射到一個槽中 1)通過鏈接法解決衝突 CHAINED-HASH-INSERT

原创 插入排序和歸併排序

I INSERTION-SORT 1 for j =2 to n 2 A[j]=key //把鍵值插到已經排好的A[1.j-1] i=j-1 3 while i>0 and A[i] >key

原创 順序統計

查找最小值 MINIMUM(A) 1. min=A(1) 2. for i=2 to A.length 3. if min>A[i] 4. min=A[i] 5. return min 選擇排序代碼 #inc

原创 二叉搜索樹

查找關鍵字k: 輸入一個指向樹根的指針和關鍵字k TREE-SEARCH(x,k) if x==NIL or k==x.key return x if k<x.key return TREE-SEARCH(x.left,k