原创 java解析json數據
1.背景 最近在解析json的數據,發現直接用HQL邏輯很繁瑣,於是藉助java,再添加爲UDF。 2.什麼是json(參考:http://www.json.org/) json一共有兩種數據結構 (1)以(key/value)對形式存
原创 K-means聚類
轉自博客:http://blog.csdn.net/skyline0623/article/details/8154911#comments 算法代碼 Github傳送門:K-MeansCluster@skyline0623 數據聚類
原创 hive之分析窗函數
hive提供很多的分析函數,用於完成統計分析,之前一直沒學習,最近有用到,特意來學習一下。其中感謝很多博客,提供了很多知識和信息。 1.數據準備 drop table if exists table
原创 邏輯迴歸及相關問題的總結
最近總結了好多之前學習的算法,想都寫在博客上,對自己是個總結,不然每次總得翻好幾本書或者好幾個雲筆記才能看全。可是無奈,要寫的東西太多,好多都積壓在草稿箱裏,只能有點時間趕緊寫點。 1.參考資料 這次不同的是,我要先列舉幾個
原创 機器學習系列--LDA與PCA
版權聲明: 本文由LeftNotEasy發佈於http://leftnoteasy.cnblogs.com。 前言: 第二篇的文章中談到,和部門老大一寧出去outing的時候,他給了我相當多的機器學習的建議,裏面涉及到很
原创 hive之分析窗函數(二)
這次介紹幾個序列函數NTILE,ROW_NUMBER,RANK,DENSE_RANK 注意序列函數不支持WINDOWS字句,即rows between 1.數據準備 參考上一篇文章,下面是結果:
原创 排序(3)--快速排序
最近去面試,都考到了排序,考的比較多的是快速排序,發現自己代碼實現能力還是很次啊,趕緊抓緊學起來~ 1.基本思想 選擇一個基準元素(通常是第一個元素或者最後一個元素,當然也可以選擇幾個值的均值或中值,例如,取第一個,中間的,最
原创 svm的學習
1. 概述 支持向量機(supportvector machine,svm)是一種被認爲是效果最好的現成可用的分類算法之一。這個“現成”很重要,因爲他在學術界和工業界都混得很好(而不同於有些算法,在抽象出來的模型裏面很完美,但
原创 進化算法 遺傳算法與粒子羣算法之間的比較
轉自: http://hanwangwang1989.blog.163.com/blog/static/168259017201431103649613/ 遺傳算法(GA)作爲一種經典的進化算法,自 Holland提出之
原创 如何防止過擬合?與如何特徵選擇?
之前學習的時候記得比較雜亂,現在特來整理一下,初期先把方法的大綱羅列出來,具體的內容後期持續補充更新。 什麼是過擬合? 是這樣一種現象:一個假設在訓練數據上能夠獲得比其他假設更好的擬合,但是在除訓練數據集之外的數據上卻不能
原创 深度學習 VS 傳統的機器學習
原文地址:http://blog.csdn.net/u010167269/article/details/52642562 由於和筆者的想法比較相同,特轉載,以作記錄,也供跟多人討論 自從 MIT Technology Revie
原创 排序(2)-選擇排序
1.基本思想 對一個長度爲i的數組進行i遍的遍歷,第一遍遍歷出最小的元素並將其與數組的第一個元素進行交換,然後再來進行第二遍遍歷,再把次最小的元素與第二個元素交換,如此遍歷n遍之後,就會將所有的元素從小到大排序出來了。 2.舉例 這裏舉
原创 NLP學習資料
目前開始做自然語言處理(Nature Language Processing,NLP),真的是小白一個呀,從最簡單的開始總結。 1.入門書籍(其實我不是都知道,也只是把別人的總結一下,爲了自己以後能系統的學習) 1)數學之美-
原创 Trie樹的學習
所寫內容,是對自己所學知識的一個記錄罷了。 1.簡介 最近在做中國人名識別的時候,看到一篇文章是基於角色的人名識別,而角色字典中有2個角色是用雙數組Tire樹來建立的,當時沒有看懂,於是來先學習Trie樹。 Trie樹,又稱字典樹,單詞查
原创 排序(1)-冒泡排序
1.基本概念 根據在排序過程中待排序的記錄是否全部被放置在內存中,將排序分爲內部排序和外部排序。內部排序是在排序整個過程中,待排序的所有記錄全部 放置在內存中;外排序是由於排序的記錄個數太多,不能同時放置在內存中,整個排序過