原创 數據挖掘之缺失值填補常見手段

佔坑先~ 可以參考這篇

原创 leetcode36&37_SudukuSolver

36題: 一.問題描述 Determine if a Sudoku is valid, according to: Sudoku Puzzles - The Rules. The Sudoku board could be part

原创 ★leetcode45_Jump Game II

一.問題描述 Given an array of non-negative integers, you are initially positioned at the first index of the array. Each e

原创 ★leetcode43_Multiply Strings

一.問題描述 Given two numbers represented as strings, return multiplication of the numbers as a string. Note: The numbers

原创 python之Thread和multiprocessing

一.背景篇         如何讓計算機實現併發作業,提高運行效率是很重要的。但是通常我們提到併發都會想到線程,在同一個進程內創建多線程可以共享資源,同時創建線程的開銷會小於創建進程。但是線程之間的競爭資源(鎖)同步問題還是要消耗一些資源

原创 Hadoop_eclipse開發配置

參考這兩篇文章 http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html http://www.cnblogs.com/simplestupid/p/4681144

原创 Linux下打包運行MR程序

在配置好基本環境之後,linux下打包運行MR程序分爲這麼幾步: 1.編寫MR程序; 2.編譯xx.java源文件【javac  wordcount.java】 3.打包jar 【jar  -cvf  WordCount.jar  ./W

原创 Hadoop實戰(五) 高階MapReduce

本章重點概括 TODO 鏈接MapReduce作業 順序鏈接 這種任務可以手動的逐個執行,但生成自動化執行序列的方式更爲便捷。 mapreduce-1 | mapreduce-2 | mapreduce-3 | … 具複雜依

原创 kdtree&knn

前言:本文關於kdtree的知識基本來源於kdtree_wiki 一、what's kdtree         kdtree是 k-dimensional tree的縮寫,它是一種用於組織k維空間中數據點的基於空間劃分的數據結構。kdt

原创 Skinny-dip clustering in the sea of noise

粗讀 理解論文主要工作 貢獻 理解一些相關工作: * unimodality:wiki_unimodality 單峯性數學上是指處理一個唯一的模式(只有一個單一的最大值)。 * mode:mode_wiki The mode

原创 leetcode60_Permutation Sequence

一、問題描述 The set [1,2,3,…,n] contains a total of n! unique permutations. By listing and labeling all of the permutati

原创 Hadoop實戰之課後題--分析web服務器的日誌文件

所有代碼:github-wttttt 任務 統計每個IP地址的訪問次數 查找訪問數最多的前K個IP地址 分析: 任務1很簡單,簡單的求和問題,用來重新熟悉hadoop MR程序的寫法。 優化:使用combiner()減少網絡中的流

原创 Hadoop之Text與String的異同

String 常量,創建之後不可修改 字符串連接是通過StringBuilder(或StringBuffer)類實現的 【區別:StringBuilder是非線程安全的,這也使其性能比StringBuffer要高(少synchrone

原创 Hadoop實戰(四) 編寫MR程序

Hadoop實戰(四) 編寫MR程序 正文之前,先放出本章重點概括: 一、MR程序框架 MyJob類,內含– 1.Mapper和Reducer作爲內部類 2.run()作爲driver,以實例化和配置作業 二、Hadoop Stre

原创 《高維數據的聚類分析研究及其應用》讀書筆記

一、高維聚類の研究方向         由於高維數據的稀疏性等特徵,使得在高維聚類的研究中有如下幾個研究重點: 1)維度約簡,主要分爲特徵變換和特徵選擇兩大類。前者是對特徵空間的變換映射,常見的有PCA、SVD等。後者則是選擇特徵的子集,