台部落yezi

1.背景最近在解析json的數據，發現直接用HQL邏輯很繁瑣，於是藉助java，再添加爲UDF。 2.什麼是json(參考：http://www.json.org/) json一共有兩種數據結構 (1)以(key/value)對形式存

2018-09-04 05:46:55

轉自博客：http://blog.csdn.net/skyline0623/article/details/8154911#comments 算法代碼 Github傳送門：K-MeansCluster@skyline0623 數據聚類

2018-09-04 05:46:54

hive提供很多的分析函數，用於完成統計分析，之前一直沒學習，最近有用到，特意來學習一下。其中感謝很多博客，提供了很多知識和信息。 1.數據準備 drop table if exists table

2018-09-04 05:46:54

最近總結了好多之前學習的算法，想都寫在博客上，對自己是個總結，不然每次總得翻好幾本書或者好幾個雲筆記才能看全。可是無奈，要寫的東西太多，好多都積壓在草稿箱裏，只能有點時間趕緊寫點。 1.參考資料這次不同的是，我要先列舉幾個

2018-09-04 05:46:54

2018-09-04 05:46:54

這次介紹幾個序列函數NTILE,ROW_NUMBER,RANK,DENSE_RANK 注意序列函數不支持WINDOWS字句，即rows between 1.數據準備參考上一篇文章，下面是結果：

2018-09-04 05:46:54

最近去面試，都考到了排序，考的比較多的是快速排序，發現自己代碼實現能力還是很次啊，趕緊抓緊學起來~ 1.基本思想選擇一個基準元素（通常是第一個元素或者最後一個元素,當然也可以選擇幾個值的均值或中值，例如，取第一個，中間的，最

2018-09-04 05:46:54

1. 概述支持向量機（supportvector machine，svm）是一種被認爲是效果最好的現成可用的分類算法之一。這個“現成”很重要，因爲他在學術界和工業界都混得很好（而不同於有些算法，在抽象出來的模型裏面很完美，但

2018-09-04 05:46:54

轉自： http://hanwangwang1989.blog.163.com/blog/static/168259017201431103649613/ 遺傳算法(GA)作爲一種經典的進化算法，自 Holland提出之

2018-09-04 05:46:54

之前學習的時候記得比較雜亂，現在特來整理一下，初期先把方法的大綱羅列出來，具體的內容後期持續補充更新。什麼是過擬合？是這樣一種現象：一個假設在訓練數據上能夠獲得比其他假設更好的擬合，但是在除訓練數據集之外的數據上卻不能

2018-09-04 05:46:53

原文地址：http://blog.csdn.net/u010167269/article/details/52642562 由於和筆者的想法比較相同，特轉載，以作記錄，也供跟多人討論自從 MIT Technology Revie

2018-09-04 05:46:53

1.基本思想對一個長度爲i的數組進行i遍的遍歷，第一遍遍歷出最小的元素並將其與數組的第一個元素進行交換，然後再來進行第二遍遍歷，再把次最小的元素與第二個元素交換，如此遍歷n遍之後，就會將所有的元素從小到大排序出來了。 2.舉例這裏舉

2018-09-04 05:46:53

目前開始做自然語言處理（Nature Language Processing，NLP）,真的是小白一個呀，從最簡單的開始總結。 1.入門書籍（其實我不是都知道，也只是把別人的總結一下，爲了自己以後能系統的學習） 1）數學之美-

2018-09-04 05:46:53

所寫內容，是對自己所學知識的一個記錄罷了。 1.簡介最近在做中國人名識別的時候，看到一篇文章是基於角色的人名識別，而角色字典中有2個角色是用雙數組Tire樹來建立的，當時沒有看懂，於是來先學習Trie樹。 Trie樹，又稱字典樹，單詞查

2018-09-04 05:46:52

1.基本概念根據在排序過程中待排序的記錄是否全部被放置在內存中，將排序分爲內部排序和外部排序。內部排序是在排序整個過程中，待排序的所有記錄全部放置在內存中；外排序是由於排序的記錄個數太多，不能同時放置在內存中，整個排序過

2018-09-04 05:46:52