原创 數據規範化(歸一化)方法

數據挖掘中,在訓練模型之前,需要對特徵進行一定的處理,最常見的處理方式之一就是數據的規範化。數據的規範化的作用主要有兩個:去掉量綱,使得指標之間具有可比性;將數據限制到一定區間,使得運算更爲便捷。歸一化就是典型的數據規範化方法,常見的數據

原创 求一個遞增序列的二叉搜索樹的數量。

題目:假設序列爲{1,3, 5, 6, 7},問由該序列可以生成多少種二叉搜索樹。 思路:遇到這種題,可以通過找規律的方式來求解。 A 只有一個節點時,顯然只有一種。 B 有兩個節點時,有2種,如圖所示: C 當有3個節點時,我們可以

原创 頻繁模式挖掘的模式評估方法

頻繁模式挖掘可以出很多模式,但是判斷一個模式是否有趣,需要用到模式的評估方法。下面介紹常用的模式評估方法。(假設項集A、B) 1、支持度   包含項集A和B的項的元組數與所有元組數的比值,一般計爲P(A∪B)。 2、置信度   模式A--

原创 過擬合的解決方法

數據挖掘的實際工程中,常常出現模型在訓練數據集上的效果好,而在測試集上的效果差的情況,也就是模型的泛化能力很差,這就是常說的過擬合。此處給出幾種常見的過擬合解決方法。 1、降維    在樣本不變的情況下,隨着維數的增加,樣本空間越來越稀疏

原创 處理類不平衡的方法

在數據挖掘的時間工程中,經常會出現正樣本遠遠少於負樣本的情況,也就是類不平衡問題。常見的類不平衡問題的處理方法如下: 1、過抽樣 將正樣本複製多份兒,使得正樣本的數據跟負樣本的數量相等或者近似平衡。過抽樣的主要缺點是,由於正樣本是複製多份

原创 方差、偏差、噪聲、泛化誤差之間的關係

       爲了更明確的說明方差、偏差、噪聲、泛化誤差之間的關係,先定義幾個變量: yD:實例x在數據集D中的標記(在實際工程中的flag(標籤)列)。 y:x的真實標記(該值是理論值,實際工程中一般是不能獲得的)。 f(x;D):在訓

原创 下面哪個函數不能作爲C++ std::sort的比較函數。

       看到過阿里巴巴的一道筆試題,題目是:下面哪個函數不能作爲C++ std::sort的比較函數。剛開始拿到這個題不知道出題的考點在哪,所以不知道怎麼做,直到看到另外一篇博客(博客地址:http://blog.csdn.net/

原创 常用的抽樣方法

在數據挖掘的實際工程中,多數時候需要從總體中抽取樣本來進行模型預測。抽樣的方法有多種,此處例舉常見的幾種。 1、簡單抽樣。    簡單抽樣分爲有放回抽樣和無放回抽樣。無放回抽樣:從N個個體中隨機抽取n個個體,每次抽取一個個體,且抽取後不再

原创 主成分分析的計算方法

  主成分分析(Principal Component Analysis,PCA),是通過正交變換將一組可能存在相關性的變量轉換爲一組線性不相關的變量,轉換後的這組變量叫主成分。通俗的講就是將分佈在多個維度的高維數據投射到幾個軸上。現假設

原创 缺失值的處理方法

在數據挖掘的實際工程中,由於數據採集成本、隱私保護等原因,得到的訓練數據會有缺失值,現在介紹幾種處理缺失值的方法。 1、直接刪除有缺失值的實例 該方法主要針對含有缺失值的實例較少的情況,否則,不僅不能充分的利用現有的數據信息,也會使得原有

原创 數據對象的屬性(特徵)類型

   在數據挖掘/機器學習過程中,當我們在對屬性進行處理時,分清屬性的類型是有必要的,不同類型的屬性需要使用不同的處理方法,如在對對象的標識列進行處理時,對該列進行數學運算是沒有意義的,因爲對象的標識列一般是標稱屬性,只是起到唯一標識的作

原创 輪流拿(取)東西問題

         假設有A、B兩個人,輪流從一堆物品中拿物品,每次只能拿限定的個數,判斷誰一定會拿到最後一個物品或者要想拿到最後一個物品應該採取什麼樣的策略。          先看兩道具體的題目: 1)  有A、B兩個人,從50個蘋果中

原创 在防止溢出的情況下求兩個整數的平均數。(向下取整)

題目:已知兩個整數a、b,a和b的值均沒有出現溢出,而a + b有可能出現溢出,現在需要在防止溢出的情況下求a和b的平均值,該平均值取其實際值的向下取整。 思路:求兩個數的平均值最常見的思路就是將兩個數相加,然後除以2,但是此處兩個數相

原创 猜帽子顏色問題(阿里巴巴面試題)

        監獄裏有10個犯人,他們即將被執行死刑,但是那天是監獄長生日,監獄長決定給他們出一道智力題,如果有誰答對了就可以免除死刑。題目是:10個人從前往後站成一排,每人頭上戴一頂帽子,帽子的顏色要麼是黑色,要麼是白色,每個人只能看

原创 多重共線性的解決方法

  多重共線性(Multicollinearity)是指線性迴歸模型中的解釋變量之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確[百度百科]。通俗的說,就是變量之間有較強的相關性,影響模型的預測能力。解決多重共線問題