原创 python引用計數增加、減少

對象引用計數增加的情況: 1.對象被創建:x=4 2.另外的別人被創建:y=x 3.被作爲參數傳遞給函數:foo(x)  ->會增加2 4.作爲容器對象的一個元素:a=[1,x,'33']   對象引用計數減少的情況: 1.一個本地引用離

原创 LDA主題模型

  α:分佈p(θ)需要一個向量參數,即Dirichlet分佈的參數,用於生成一個主題θ向量;   β:各個主題對應的單詞概率分佈矩陣p(w|z)。 詳解:https://blog.csdn.net/a123456ei/article/d

原创 爲什麼要對數值類型的特徵做歸一化,樹形算法爲啥不需要歸一化?

相關解釋:  沒有考慮變量之間相關性,每次篩選都只考慮一個變量(因此不需要歸一化); 對於有權重的模型,Feature可以Scaling 比如:線性迴歸、SVM、(BP??)對於沒有權重的方法,特徵不適合做歸一化(標準化)如果對特徵做了F

原创 盒型圖:馬氏距離:散點圖:

  盒型圖: 用作顯示一組數據分散情況資料的統計圖,因形狀如箱子而得名,常見於品質管理。 馬氏距離: 表示數據的協方差距離,是一種有效的計算兩個未知樣本集的相似度的方法。 散點圖: 迴歸分析中,數據點在直角座標系平面上的分佈圖,散點圖表

原创 層序遍歷打印行號

  主要代碼 public void levelOrderNew(TreeNode root) {         TreeNode last=root; //當前行最右結點         TreeNode nlast = null;

原创 Python

''' #二維數組的創建: #3行10列的二維數組的創建: m = [[0] * 3 for _ in range(10)] #或者 m = [[0] * 3] * 10 ''' #三維數組的創建: #4行3列,Z = 2的三維數

原创 對10億個IPV4的ip地址進行排序,每個Ip只會出現一次

  普通的想法,      可以另外一種方法:

原创 排序算法總結

排序法  平均時間 最差情形 穩定度 額外空間 備註 冒泡  O(n2)   O(n2)  穩定 O(1) n小時較好 交換   O(n2)   O(n2) 不穩定 O(1) n小時較好 選擇  O(n2)  O(n2) 不穩定 O(1

原创 隱含狄利克雷分佈(Latent Dirichlet Allocation)

隱含狄利克雷分佈(Latent Dirichlet Allocation,   注意機器學習還有一個LDA,即線性判別分析(線性判別分析https://blog.csdn.net/qq_35290785/article/details/8

原创 SecondNamenode的作用

SecondNamenode是對主Namenode的一個補充,對內存的需求和Namenode相同 SecondNamenode會週期地進行fsimage文件的合併,防止edits文件過大,導致Namenode啓動時間過長, 應該與Name

原创 動態規劃,視頻筆記

 動態規劃     例子: 思路: def solve(m): a = m n=4 for i in range(1,n): a[i][0]=a[i-1][0]+m[i][0] f

原创 xgboost調參調優

https://blog.csdn.net/u010665216/article/details/78532619

原创 求特徵值與特徵向量

1 特徵多項式 nxn矩陣A的特徵多項式: det(A - aI)    記做pa 2 求特徵值與特徵向量 對於方程det(A - aI) = 0 方程的根就是A的特徵值,最後將特徵值帶入公式(A-aI)h=0中解出特徵向量。 下邊是兩個