原创 數據挖掘中的分類算法比較

隨着計算能力、存儲、網絡的高速發展,人類積累的數據量正以指數速度增長。對於這些數據,人們迫切希望從中提取出隱藏其中的有用信息,更需要發現更深層次的規律,對決策,商務應用提供更有效的支持。爲了滿足這種需求,數據挖掘技術的得到了長足的發

原创 分類算法之二——特徵提取與特徵選擇

典型應用——文本分類    1)文本信息的表示,從原始的文本轉化爲結構化的可處理信息; 2)目前常採用向量空間模型來描述文本向量,通常文本向量維度較高,使得分類效率低下; 3)必須對特徵向量進行降維處理,最有效的方法是特徵選擇。 文本

原创 知己知彼,IT公司對數據挖掘相關從業者的的要求

經常有人諮詢數據挖掘該學什麼,怎麼學,先看看各公司的要求,對着摸索着學習。 路走對了,就不怕遠,wish u good luck! 一淘廣告技術 算法工程師-數據挖掘 工作年限 3年以上 學歷要求 碩士 崗位描述   1. 對數據敏感,熱

原创 分類算法之一——數據預處理

現實世界中數據大體上都是不完整,不一致的髒數據,無法直接進行數據挖掘,或挖掘結果差強人意。爲了提前數據挖掘的質量產生了數據預處理技術。   數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使

原创 Hadoop相關面試題(一)

常見的一些基礎面試題: 1、hadoop運轉的原理? 2、mapreduce的原理?3、HDFS存儲的機制?4、舉一個簡略的比方闡明mapreduce是怎麼來運轉的 ?5、面試的人給你出一些疑問,讓你用mapreduce來完成?    

原创 GPU上大規模稀疏矩陣特徵值計算高效算法之一——GPU介紹

GPU主要特點 1. 高吞吐量。 2. 擁有數百個硬件處理單元,性能達到1Tflops。 3. 每個處理單元深度多線程,即使有的線程被stall了,GPU還能夠繼續正常執行。 4. 高memory帶寬。 GPU結構特性 1)硬件模型

原创 面試題目小結

最近遇到的一些IT公司面試題,總結一下: 1. 12個大小形狀相同的球,其中一個質量與其他的不同,一個天平稱重三次,找出那個質量不同的球。 注意分析的順序。 2. 在一個字符串中查找另一個給定的字符串。 普通查找法,以及KMP算法。 3

原创 Hadoop 學習筆記——mapreduce框架詳解

 開始聊mapreduce,mapreduce是hadoop的計算框架,我學hadoop是從hive開始入手,再到hdfs,當我學習hdfs時候,就感覺到hdfs和mapreduce關係的緊密。這個可能是我做技術研究的思路有關,我開始

原创 分類算法之三——SVM分類器

關於數據維度對模型選擇的影響: 1.一般對於高維數據的分類問題,比如10000維的特徵向量,尤其是在稀疏時,線性模型總是不錯的。 2.如果維度不高,比如幾十,那麼nonlinear kernel的效果更好。 3.對於大樣本數據,線性模型

原创 面試之機器學習算法思想簡單梳理

前言:   找工作時(IT行業),除了常見的軟件開發以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/數據挖掘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智能沒達到

原创 求一個數階乘的後面連續0的個數

對於一個數n的階乘 n! ,計算其後面有幾個連續的零。   我們知道,10 = 2 * 5。每一個 2 與一個 5 相乘,結果就增加一個零。所以求 n! 後面的連續零的個數,其實就是求其中相乘的數含有因子每對因子 2 與 5  的個數

原创 Hadoop相關面試題(二)

1. 下面哪個程序負責 HDFS 數據存儲。a)NameNode  b)Jobtracker  c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 bloc

原创 機器學習中的相似性度量

在做分類時常常需要估算不同樣本之間的相似性度量(Similarity Measurement),這時通常採用的方法就是計算樣本間的“距離”(Distance)。採用什麼樣的方法計算距離是很講究,甚至關係到分類的正確與否。 本文的目的就

原创 機器學習中的數學(1)-迴歸(regression)、梯度下降(gradient descent)

前言:    上次寫過一篇關於貝葉斯概率論的數學,最近時間比較緊,coding的任務比較重,不過還是抽空看了一些機器學習的書和視頻,其中很推薦兩個:一個是stanford的machine learning公開課,在verycd可下載,

原创 GPU上大規模稀疏矩陣特徵值計算高效算法之三——SLEPc測試

Slepc計算矩陣特徵值時間測試 注: (1)GPU集羣介紹: 該集羣有一個登錄節點(ustcgpu)和100個計算節點(node1~node100)。各計算節點配置2 顆4核的IntelE5520 CPU,16GB內存,通過20GbsI