原创 java解析json數據

1.背景 最近在解析json的數據,發現直接用HQL邏輯很繁瑣,於是藉助java,再添加爲UDF。 2.什麼是json(參考:http://www.json.org/) json一共有兩種數據結構 (1)以(key/value)對形式存

原创 K-means聚類

轉自博客:http://blog.csdn.net/skyline0623/article/details/8154911#comments 算法代碼 Github傳送門:K-MeansCluster@skyline0623 數據聚類

原创 hive之分析窗函數

       hive提供很多的分析函數,用於完成統計分析,之前一直沒學習,最近有用到,特意來學習一下。其中感謝很多博客,提供了很多知識和信息。 1.數據準備            drop table if exists table

原创 邏輯迴歸及相關問題的總結

最近總結了好多之前學習的算法,想都寫在博客上,對自己是個總結,不然每次總得翻好幾本書或者好幾個雲筆記才能看全。可是無奈,要寫的東西太多,好多都積壓在草稿箱裏,只能有點時間趕緊寫點。       1.參考資料 這次不同的是,我要先列舉幾個

原创 機器學習系列--LDA與PCA

版權聲明:     本文由LeftNotEasy發佈於http://leftnoteasy.cnblogs.com。 前言:     第二篇的文章中談到,和部門老大一寧出去outing的時候,他給了我相當多的機器學習的建議,裏面涉及到很

原创 hive之分析窗函數(二)

       這次介紹幾個序列函數NTILE,ROW_NUMBER,RANK,DENSE_RANK         注意序列函數不支持WINDOWS字句,即rows between 1.數據準備    參考上一篇文章,下面是結果:  

原创 排序(3)--快速排序

最近去面試,都考到了排序,考的比較多的是快速排序,發現自己代碼實現能力還是很次啊,趕緊抓緊學起來~ 1.基本思想       選擇一個基準元素(通常是第一個元素或者最後一個元素,當然也可以選擇幾個值的均值或中值,例如,取第一個,中間的,最

原创 svm的學習

1.      概述 支持向量機(supportvector machine,svm)是一種被認爲是效果最好的現成可用的分類算法之一。這個“現成”很重要,因爲他在學術界和工業界都混得很好(而不同於有些算法,在抽象出來的模型裏面很完美,但

原创 進化算法 遺傳算法與粒子羣算法之間的比較

轉自:   http://hanwangwang1989.blog.163.com/blog/static/168259017201431103649613/       遺傳算法(GA)作爲一種經典的進化算法,自 Holland提出之

原创 如何防止過擬合?與如何特徵選擇?

之前學習的時候記得比較雜亂,現在特來整理一下,初期先把方法的大綱羅列出來,具體的內容後期持續補充更新。 什麼是過擬合?        是這樣一種現象:一個假設在訓練數據上能夠獲得比其他假設更好的擬合,但是在除訓練數據集之外的數據上卻不能

原创 深度學習 VS 傳統的機器學習

原文地址:http://blog.csdn.net/u010167269/article/details/52642562 由於和筆者的想法比較相同,特轉載,以作記錄,也供跟多人討論 自從 MIT Technology Revie

原创 排序(2)-選擇排序

1.基本思想 對一個長度爲i的數組進行i遍的遍歷,第一遍遍歷出最小的元素並將其與數組的第一個元素進行交換,然後再來進行第二遍遍歷,再把次最小的元素與第二個元素交換,如此遍歷n遍之後,就會將所有的元素從小到大排序出來了。 2.舉例 這裏舉

原创 NLP學習資料

      目前開始做自然語言處理(Nature Language Processing,NLP),真的是小白一個呀,從最簡單的開始總結。 1.入門書籍(其實我不是都知道,也只是把別人的總結一下,爲了自己以後能系統的學習) 1)數學之美-

原创 Trie樹的學習

所寫內容,是對自己所學知識的一個記錄罷了。 1.簡介 最近在做中國人名識別的時候,看到一篇文章是基於角色的人名識別,而角色字典中有2個角色是用雙數組Tire樹來建立的,當時沒有看懂,於是來先學習Trie樹。 Trie樹,又稱字典樹,單詞查

原创 排序(1)-冒泡排序

1.基本概念        根據在排序過程中待排序的記錄是否全部被放置在內存中,將排序分爲內部排序和外部排序。內部排序是在排序整個過程中,待排序的所有記錄全部 放置在內存中;外排序是由於排序的記錄個數太多,不能同時放置在內存中,整個排序過