原创 Singleton模式——對象創建型模式

Singleton模式即爲單例模式/單件模式。 (一)意圖——保證一個類僅有一個實例,並提供一個訪問它的全局訪問點。 如一臺計算機可以有多個端口,但是應該統一管理這些端口,避免訪問衝突。——選擇Singleton模式就是爲了避免不一致狀態

原创 MR並行算法編程過程中遇到問題的思考

1. Reducer 類中 reduce函數外定義的變量是在Reducer機器上屬於全局變量的,因此,一臺機器上reduce函數均可以對該變量的值做出貢獻。如代碼:(sum和count數據Reducer機器上的全局變量)‘ public

原创 Bridge模式——對象結構型模式

    今天看了Bridge模式,對其進行簡單的總結,並給出幾篇通俗易懂的文章鏈接。 (一)意圖——將抽象部分和它的實現部分分離,使它們都可以獨立地變化。 適用於從多維度描述的類型,拆解開來,使其能沿着各維度獨立變化。脫耦。 (二)動機—

原创 block和split的理解

兩者是從不同的角度來定義的:HDFS以固定大小的block爲基本單位存儲數據(分佈式文件系統,實際存儲角度,物理存儲單位),而MapReduce以split作爲處理單位(編程模型角度,邏輯單位)。 對於文件中的一行記錄,可能會劃分到不同的

原创 爬取淘寶交易記錄的爬蟲

前幾天剛來頭兒讓爬個淘寶交易記錄先看看,就用python寫了個,我是分成兩步爬的,首先是爬取商品鏈接,代碼如下: #-*- coding:utf-8 -*- import BeautifulSoup import urllib2 im

原创 XML Basic

XML聲明: <?xml version="1.0" encoding="UTF-8"?> XML中屬性的value值要被引號(單引號or雙引號)引起來,如: <note date="12/11/2007"> <to>Tove</t

原创 安裝配置hive中遇到的問題

1. mysql中添加用戶名時總出現如下問題:ERROR 1290 (HY000): The MySQL server is running with the --skip-grant-tables option so it cannot

原创 安裝和配置Tomcat

      今天第一個技術難題,說難也不難,被鄙視的徹徹底底。       理解上的問題糾正:Xftp裏面我們看到的只是自己電腦上和所連接服務器裏面的文件,集羣裏面有master  服務器和slaves 服務器 ,一個NameNode 和

原创 Rotate Image

You are given an n x n 2D matrix representing an image. Rotate the image by 90 degrees (clockwise). Follow up: Could

原创 Map.Entry用法示例

一般在HashMap中可以通過key值得到value值,以key作爲檢索項。Map.Entry<K,V>可以作爲條目的檢索項。HashMap中有entrySet()方法,返回值是Set<Map.Entry<K,V>>,對於返回的條目集合,

原创 spark 部署問題

spark的web UI 端口設置:spark-env.sh 中設置SPARK_MASTER_WEBUI_PORT 爲自己想設置的端口號。 其他worker 的web UI 端口默認:8081 master 的默認監聽端口:7077 sp

原创 Hadoop中幾個基本命令行命令

對HDFS操作的幾個命令(必須是Hadoop命令,否則只是對本地操作)   1. 查看HDFS中某個目錄或文件的包含哪些文件和文件夾:       bin/hadoop dfs/fs -ls 文件(夾)路徑       若是非空文件夾,則

原创 舊版API的TextInputFormat源碼分析

TextInputFormat類package org.apache.hadoop.mapred; import java.io.*; impo

原创 enum枚舉類型的使用

修飾符爲public static enum,不用加final,否則提示錯誤。 枚舉類的所有實例必須在枚舉類中顯式列出(,分隔,; 結尾)。列出的實例系統會自動添加 public static final 修飾。 允許開發者給枚舉類型增加

原创 實戰Hadoop中遇到的幾個類、接口說明

1. Configuration :public 類型接口,這個接口包含的多數方法是進行與數據屬性<key,value>有關的操作。     幾個方法:     1)addProperty(String key, Object value