原创 Hive函數編程-關係運算

一、關係運算: 4 1. 等值比較: = 4 2. 不等值比較: <> 4 3. 小於比較: < 4 4. 小於等於比較: <= 4 5. 大於比較: > 5 6. 大於等於比較: >= 5 7. 空值判斷: IS NULL 5 8. 非

原创 Python腳本之間調用

自己遇到的很簡單的小問題,寫出來給需要的朋友參考下。 如果對於兩個(或多個).py腳本,其中一個腳本需要調用另外一個(或多個)腳本,解決步驟如下: 1)將兩個(或多個)腳本放在同一個目錄下; 2)需要調用的腳本中導入需要調用的腳本,fro

原创 堆排序

堆排序(Heapsort): 是指利用堆積樹(堆)這種數據結構所設計的一種排序算法,它是選擇排序的一種。可以利用數組的特點快速定位指定索引的元素。堆分爲大根堆和小根堆,是完全二叉樹。 大根堆的要求是每個節點的值都不大於其父節點的值,即A[

原创 Python遞歸實現快速排序

快速排序(QuickSort)是對冒泡排序的一種改進: 基本思想: 通過一趟排序將要排序的數據分割成獨立的兩部分,其中一部分的所有數據都比另外一部分的所有數據都要小,然後再按此方法對這兩部分數據分別進行快速排序,整個排序 過程可以遞歸進

原创 Python遞歸實現全排列

排列:從n個元素中任取m個元素,並按照一定的順序進行排列,稱爲排列; 全排列:當n==m時,稱爲全排列; 比如:集合{ 1,2,3}的全排列爲: { 1 2 3}  { 1 3 2 } { 2 1 3 } { 2 3 1 } { 3

原创 Kmeans幾種方法比較

Kmeans算法原理: 選擇K個點作爲初始質心 repeat 將每個點指派到最近的質心,形成K個簇 重新計算每個簇的質心 until  簇不發生變化或達到最大迭代次數 案例:對於NBA球員的平均每分鐘助攻和平均每分鐘得分數據,進行聚類

原创 Python對多屬性的重複數據去重

python中的pandas模塊中對重複數據去重步驟: 1)利用DataFrame中的duplicated方法返回一個布爾型的Series,顯示各行是否有重複行,沒有重複行顯示爲FALSE,有重複行顯示爲TRUE; 2)再利用DataFr

原创 折半查找(二分查找)

折半查找: 又稱二分查找,優點是比較次數少,查找速度快,平均性能好;其缺點是要求待查表爲有序表,且插入刪除困難。因此,折半查找方法適用於不經常變動而查找頻繁的有 序列表。首先,假設表中元素是按升序排列,將表中間位置記錄的關鍵字與查找關鍵

原创 Machine Learning主要數據集

轉自:http://blog.csdn.net/yy13210520/article/details/26338587 KDD杯的中心,所有的數據,任務和結果。UCI機器學習和知識發現研究中使用的大型數據集KDD數據庫存儲庫。UCI機

原创 C語言實現二叉鏈表存儲

這篇文章主要爲大家詳細介紹了C語言實現二叉鏈表存儲的相關資料,具有一定的參考價值,感興趣的小夥伴們可以參考一下 利用二叉鏈表存儲,並且利用遞歸的方法實現二叉樹的遍歷(前序遍歷、中序遍歷和後續遍歷)操作。 c語言具體

原创 C語言實現圖的鄰接矩陣存儲操作

這篇文章主要爲大家詳細介紹了C語言實現圖的鄰接矩陣存儲操作,具有一定的參考價值,感興趣的小夥伴們可以參考一下 利用鄰接矩陣容易判定任意兩個頂點之間是否有邊(或弧)相連,並容易求得各個頂點的度。 c語言代碼實現如下:

原创 字符串的基本操作--基於堆分配存儲

字符串一般簡稱爲串。 堆分配存儲結構的串有順序存儲結構的特點,處理方便,操作中對串長又沒有任何限制,更顯靈活,因此選擇堆分配存儲串。 利用c語言實現字符串的基本操作(查找,替換,連接等): c語言實現詳細代碼如下: #include<st

原创 今日頭條筆試編程題

題目如下截圖: 思路: 第一步先 排序。這個大家都能想到。 第二步,三個爲一組。首先看前三個 a1,a2,a3.  FIRST 如果a2-a1<=10&&a3-a2<=10 則符合要求,就從第4個開始,a4,a5,a6爲一組;

原创 哈夫曼編碼--貪心算法

        哈夫曼編碼(Huffman Coding)是一種編碼方式,是一種用於無損數據壓縮的熵編碼(權編碼)算法。1952年,David A. Huffman在麻省理工攻讀博士時所發明的,並發表於《一種構建極小多餘編碼的方法》(A

原创 線性表合併

已知線性表LA和LB中的數據元素按值非遞減有序排列,現要求將LA和LB歸併爲一個新的線性表LC,且LC中的數據元素仍按值非遞減有序排列且不重複。 C實現: #include<stdio.h> struct LinerList { int