原创 海量數據處理-字典樹和倒排索引

海量數據處理-字典樹和倒排索引 海量數據處理我們已經提到過分而治之mapreduce,和排序相關的專題,今天我們來看一下之前也有簡單介紹過的字典樹和倒排索引。 倒排索引 倒排索引是一種索引方法,常用在搜索引擎中,這個數據結構是根

原创 各大數據競賽 Top 解決方案彙總

現在,越來越多的企業、高校以及學術組織機構通過舉辦各種類型的數據競賽來「物色」數據科學領域的優秀人才,並藉此激勵他們爲某一數據領域或應用場景找到具有突破性意義的方案,也爲之後的數據研究者留下有價值的經驗。 Smilexuhc(http

原创 海量數據處理-重新思考排序2

海量數據處理--重新思考排序(2) 如今互聯網產生的數據量已經達到PB級別,如何在數據量不斷增大的情況下,依然保證快速的檢索或者更新數據,是我們面臨的問題。在之前我們也提到過,然而在大數據處理的技術中,排序起到很重要的作用,可能不是

原创 海量數據處理-重新思考排序

海量數據處理--重新思考排序(1) 海量數據處理常用技術概述 如今互聯網產生的數據量已經達到PB級別,如何在數據量不斷增大的情況下,依然保證快速的檢索或者更新數據,是我們面臨的問題。 所謂海量數據處理,是指基於海量數據的存儲、處理和

原创 編程之法之海量數據處理:尋找Top K的熱詞

題目: 有100萬個關鍵字,長度小於50個字節。用有效的算法找出Top 10的熱詞,要求對內存的佔用不超過1 MB。 分析: 這是大家面試中都被問道的問題,可以直接使用map-reducer直接解決這個問題。如果不能使用這個架構,我

原创 海量數據處理--從分而治之到Mapreduce

海量數據處理常用技術概述 如今互聯網產生的數據量已經達到PB級別,如何在數據量不斷增大的情況下,依然保證快速的檢索或者更新數據,是我們面臨的問題。 所謂海量數據處理,是指基於海量數據的存儲、處理和操作等。因爲數據量太大無法在短時間迅

原创 海量數據處理-Topk引發的思考

海量數據處理–TopK引發的思考 三問海量數據處理: 什麼是海量數據處理,爲什麼出現這種需求? 如何進行海量數據處理,常用的方法和技術有什麼? 如今分佈式框架已經很成熟了,爲什麼還用學習海量數據處理的技術? 什麼是海量數據處理,爲

原创 n個熱門物品中,隨機選擇k個物品

背景: 在推薦系統中,都會維護一個熱門的物品的list,可能會有很多人在這個list進行添加。有時我們需要從這個list中隨機選擇k個熱門物品返回給用戶,現在如何設計一個函數解決這個問題。 我們要注意兩個問題, list是增加的,對

原创 騰訊2017筆試題:編碼

/** *Author: xiaoran *Time: 2017-09-21 17:13 * *Problem: 編碼 * 假定一種編碼的編碼範圍是a-y的25個字母,從1位到4位的編碼, * 如果我們把該編碼按字典序排序,形

原创 lintcode天梯4- 數學與二進制運算

LintCode Ladder4 - Math$Bit Manipulation 1、Flip Bits 題目:給你兩個數字A和B,問你需要改變A的二進制位的幾個位使其變成B。 Example: A = 31(11111)

原创 機器學習和深度學習學習資料

原文地址:http://suanfazu.com/t/ji-qi-xue-xi-he-shen-du-xue-xi-xue-xi-zi-liao/126 比較全面的收集了機器學習的介紹文章,從感知機、神經網絡、決策樹、SVM、Ada

原创 AutoEncoder 算法與原理和實現

AutoEncoder是深度學習的另外一個重要內容,並且非常有意思,神經網絡通過大量數據集,進行end-to-end的訓練,不斷提高其準確率,而AutoEncoder通過設計encode和decode過程使輸入和輸出越來越接近,是一種無監

原创 3_Bivariate_plotting_with_pandas

基於pandas的雙變量的作圖 Scatter plot –> df.plot.scatter() 擅長: 區間數據、一些無序的分類數據 Hex plot –> df.plot.hex() 擅長: 區間數據、一些無序的分類數據

原创 51nod1536 不一樣的猜數遊戲 (思考題目的樂趣)

1536 不一樣的猜數遊戲 瓦斯亞和皮臺亞在玩一個簡單的遊戲。瓦斯亞心中想一個整數x,它是1到n之間的整數。然後皮臺亞嘗試着猜這個數字。 皮臺亞每次問一個形如這樣的問題:這個x是y的倍數嗎? 這個遊戲的流程是這樣的:首先皮臺亞把所有

原创 網易2018年實習生春招-編程題

網易筆試題,沒有參加,根據網上的題目,自己整理。 /** * Author: xiaoran * Time: 03-28 10:30 * Problem by WangYi */ /** 題目來源於網路,代碼和思路爲自己獨立思考