原创 求職那些事十五

     10月26日,我參加了哈工大深圳研究院舉行的招聘會。       雖說公司也蠻多的,但是自己中意的公司很是稀少。最終投遞了四家公司,在這不逐一羅列了。       我想談談所投的第一家公司的交流情況,公司很年輕,應該是一個創業型

原创 向高人學習

      向高人學習,成爲一個不斷學習的人。       或許有人會問,高人在哪?高人是誰?對於這個問題,讓我想起了類似的問題。美在哪?美是什麼?然而,我們生活中從不缺乏美,我們需要就是去覺察這美,從而用心地去體味這美。實際上,我們的生

原创 《R實戰》讀書筆記三

第二章  創建數據集 本章概要 1探索R數據結構 2使用數據編輯器 3數據導入 4數據集標註 本章所介紹內容概括如下。 兩個方面的內容。 方面一:R數據結構 方面二:進入數據或者導入數據到數據結構 理解數據集 一個

原创 R實戰讀書筆記四

第三章 圖形入門 本章概要 1 創建和保存圖形 2 定義符號、線、顏色和座標軸 3 文本標註 4 掌控圖形維數 5 多幅圖合在一起 本章所介紹內容概括如下。 一圖勝千字,人們從視覺層更易獲取和理解信息。 圖形工作 R

原创 HADOOP之MAPREDUCE程序應用二

摘要:MapReduce程序進行單詞計數。 關鍵詞:MapReduce程序  單詞計數 數據源:人工構造英文文檔file1.txt,file2.txt。 file1.txt 內容 Hello   Hadoop I   am  

原创 《R實戰》讀書筆記二

第一章 R簡介 本章概要 1安裝R 2理解R語言 3運行R程序 本章所介紹的內容概括如下。 一個典型的數據分析步驟如圖1所示。 圖1:典型數據分析步驟 簡而言之,現今的數據分析要求我們從多種數據源中獲取數據、數據合併

原创 Hadoop之HDFS

摘要:HDFS是Hadoop的核心模塊之一,圍繞HDFS是什麼、HDFS的設計思想和HDFS的體系結構三方面來介紹。 關鍵詞:Hadoop  HDFS   分佈式存儲系統 HDFS是Hadoop的核心模塊之一,HDFS是什麼?它

原创 Hadoop全分佈模式操作

摘要:介紹Hadoop全分佈模式操作,實現真正意義上的集羣架構。 關鍵詞:Hadoop  全分佈模式  文件配置 利用Hadoop解決大數據問題時,我們是用全分佈模式來操作Hadoop。 如何基於全分佈模式來操作Hadoop,

原创 R語言——數據分析的一把利劍

R語言,我把它稱之爲數據分析的一把利劍。 爲什麼這麼說呢? 先讓我們看一下,什麼是數據分析?所謂數據分析,就是以商業目的爲驅動,所開展的獲取數據、處理數據、分析數據、展示數據和撰寫數據結構報告的一系列科學過程。而R語言都有相應的方法可以較

原创 Hadoop之MapReduce程序開發流程

摘要:MapReduce程序開發流程遵循算法思路、Mapper、Reducer、作業執行的步驟。 關鍵詞:MapReduce 程序   開發流程 對於一個數據處理問題,若需要MapReduce,那麼如何設計和實現?MapRedu

原创 Hadoop之MapReduce程序應用三

摘要:MapReduce程序進行數據去重。 關鍵詞:MapReduce   數據去重 數據源:人工構造日誌數據集log-file1.txt和log-file2.txt。 log-file1.txt內容 2014-1-1    w

原创 Hadoop之MapReduce程序應用一

摘要:MapReduce程序處理專利數據集。 關鍵詞:MapReduce程序   專利數據集 數據源:專利引用數據集cite75_99.txt。(該數據集可以從網址http://www.nber.org/patents/下載) 問

原创 Hadoop生態系統

摘要:介紹Hadoop生態系統,從Hadoop生態系統有什麼成員,成員能做什麼和Hadoop生態系統能夠提供大數據問題解決方案兩方面來認識。 關鍵詞:Hadoop  HDFS  MapReduce   HBase  Hive  P

原创 Hadoop之MapReduce程序分析

摘要:Hadoop之MapReduce程序包括三個部分:Mapper,Reducer和作業執行。本文介紹和分析MapReduce程序三部分結構。 關鍵詞:MapReduce   Mapper  Reducer   作業執行 Ma

原创 【愛上Linux】第一課 Linux概述

學習應該是快樂的事情。快樂的東西應該要分享開來,人人都快樂! 【愛上Linux】第一課 Linux概述 在本課中,和朋友們一起來思考這些問題。 問題一:談Linux學習? 從四個方面來看,爲什麼要學習Linux?怎麼學習Linux?學習