面試知識點

設計模式

<http://c.biancheng.net/design_pattern/>

23種設計模式簡介

1. 根據目的來分

根據模式是用來完成什麼工作來劃分,這種方式可分爲創建型模式、結構型模式和行爲型模式 3 種。

**創建型模式:**用於描述“怎樣創建對象”,它的主要特點是“將對象的創建與使用分離”。GoF 中提供了單例、原型、工廠方法、抽象工廠、建造者等 5 種創建型模式。

**結構型模式:**用於描述如何將類或對象按某種佈局組成更大的結構,GoF 中提供了代理、適配器、橋接、裝飾、外觀、享元、組合等 7 種結構型模式。

**行爲型模式:**用於描述類或對象之間怎樣相互協作共同完成單個對象都無法單獨完成的任務,以及怎樣分配職責。GoF 中提供了模板方法、策略、命令、職責鏈、狀態、觀察者、中介者、迭代器、訪問者、備忘錄、解釋器等 11 種行爲型模式。

2. 根據作用範圍來分

根據模式是主要用於上還是主要用於對象上來分,這種方式可分爲類模式和對象模式兩種。

類模式:用於處理類與子類之間的關係,這些關係通過繼承來建立,是靜態的,在編譯時刻便確定下來了。設計模式中的工廠方法、(類)適配器、模板方法、解釋器屬於該模式。

**對象模式:**用於處理對象之間的關係,這些關係可以通過組合或聚合來實現,在運行時刻是可以變化的,更具動態性。設計模式中除了以上 4 種,其他的都是對象模式。

3. GoF的23種設計模式的功能

前面說明了設計模式的 23 種設計模式的分類,現在對各個模式的功能進行介紹。

創建型模式:

  1. 單例(Singleton)模式:某個類只能生成一個實例,該類提供了一個全局訪問點供外部獲取該實例,其拓展是有限多例模式。
  2. 原型(Prototype)模式:將一個對象作爲原型,通過對其進行復制而克隆出多個和原型類似的新實例。
  3. 工廠方法(Factory Method)模式:定義一個用於創建產品的接口,由子類決定生產什麼產品。
  4. 抽象工廠(AbstractFactory)模式:提供一個創建產品族的接口,其每個子類可以生產一系列相關的產品。
  5. 建造者(Builder)模式:將一個複雜對象分解成多個相對簡單的部分,然後根據不同需要分別創建它們,最後構建成該複雜對象。

結構型模式:

  1. 代理(Proxy)模式:爲某對象提供一種代理以控制對該對象的訪問。即客戶端通過代理間接地訪問該對象,從而限制、增強或修改該對象的一些特性。
  2. 適配器(Adapter)模式:將一個類的接口轉換成客戶希望的另外一個接口,使得原本由於接口不兼容而不能一起工作的那些類能一起工作。
  3. 橋接(Bridge)模式:將抽象與實現分離,使它們可以獨立變化。它是用組合關係代替繼承關係來實現,從而降低了抽象和實現這兩個可變維度的耦合度。
  4. 裝飾(Decorator)模式:動態的給對象增加一些職責,即增加其額外的功能。
  5. 外觀(Facade)模式:爲多個複雜的子系統提供一個一致的接口,使這些子系統更加容易被訪問。
  6. 享元(Flyweight)模式:運用共享技術來有效地支持大量細粒度對象的複用。
  7. 組合(Composite)模式:將對象組合成樹狀層次結構,使用戶對單個對象和組合對象具有一致的訪問性。

行爲型模式:

  1. 模板方法(TemplateMethod)模式:定義一個操作中的算法骨架,而將算法的一些步驟延遲到子類中,使得子類可以不改變該算法結構的情況下重定義該算法的某些特定步驟。
  2. 策略(Strategy)模式:定義了一系列算法,並將每個算法封裝起來,使它們可以相互替換,且算法的改變不會影響使用算法的客戶。
  3. 命令(Command)模式:將一個請求封裝爲一個對象,使發出請求的責任和執行請求的責任分割開。
  4. 職責鏈(Chain of Responsibility)模式:把請求從鏈中的一個對象傳到下一個對象,直到請求被響應爲止。通過這種方式去除對象之間的耦合。
  5. 狀態(State)模式:允許一個對象在其內部狀態發生改變時改變其行爲能力。
  6. 觀察者(Observer)模式:多個對象間存在一對多關係,當一個對象發生改變時,把這種改變通知給其他多個對象,從而影響其他對象的行爲。
  7. 中介者(Mediator)模式:定義一箇中介對象來簡化原有對象之間的交互關係,降低系統中對象間的耦合度,使原有對象之間不必相互瞭解。
  8. 迭代器(Iterator)模式:提供一種方法來順序訪問聚合對象中的一系列數據,而不暴露聚合對象的內部表示。
  9. 訪問者(Visitor)模式:在不改變集合元素的前提下,爲一個集合中的每個元素提供多種訪問方式,即每個元素有多個訪問者對象訪問。
  10. 備忘錄(Memento)模式:在不破壞封裝性的前提下,獲取並保存一個對象的內部狀態,以便以後恢復它。
  11. 解釋器(Interpreter)模式:提供如何定義語言的文法,以及對語言句子的解釋方法,即解釋器。

需要強調的是,這 23 種設計模式不是孤立存在的,很多模式之間存在一定的關聯關係,在大的系統開發中常常同時使用多種設計模式,大家必須要認真學好它們。

sqoop簡介和原理分析

Sqoop簡介

​ Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。

​ Sqoop項目開始於2009年,最早是作爲Hadoop的一個第三方模塊存在,後來爲了讓使用者能夠快速部署,也爲了讓開發人員能夠更快速的迭代開發,Sqoop獨立成爲一個Apache項目。

​ Sqoop2的最新版本是1.99.7。請注意,2與1不兼容,且特徵不完整,它並不打算用於生產部署。

sqoop原理

​ 將導入或導出命令翻譯成mapreduce程序來實現。

​ 在翻譯出的mapreduce中主要是對inputformat和outputformat進行定製

數據轉換工具Sqoop的作用和使用

​ sqoop的作用就是將關係型數據庫中的某張表數據抽取到Hadoop的hdfs文件系統當中,底層運用的還是Map Reduce 。它利用MapReduce加快數據傳輸速度,批處理方式進行數據傳輸。也可以將HDFS上的文件數據或者是Hive表中的數據導出到關係型數據庫中的某張表。

​ sqoop的功能就是將RDBMS中的數據導入HDFS,或者將HDFS中的數據導出到RDBMS*。對於文件系統中的數據導入HDFS,可以使用Flume(實時抽取)。

Sqoop大概流程

(1)讀取要導入數據的表結構,生成運行類,默認是QueryResult,打成jar包,然後提交給Hadoop;
(2)設置好job,主要也就是設置好各個參數
(3)這裏就由Hadoop來執行MapReduce來執行Import命令
      ① 首先要對數據進行切分,也就是DataSplit,DataDrivenDBInputFormat.getSplits(JobContext job)
      ② 切分好範圍後,寫入範圍,以便讀取DataDrivenDBInputFormat.write(DataOutput output),這裏是lowerBoundQuery and upperBoundQuery
      ③ 讀取以上②)寫入的範圍DataDrivenDBInputFormat.readFields(DataInput input)
      ④ 然後創建RecordReader從數據庫中讀取數據DataDrivenDBInputFormat.createRecordReader(InputSplit split,TaskAttemptContext context)
      ⑤ 創建MAP,MapTextImportMapper.setup(Context context)
      ⑥ RecordReader一行一行從關係型數據庫中讀取數據,設置好Map的Key和Value,交給MapDBRecordReader.nextKeyValue()
      ⑦ 運行MAP,mapTextImportMapper.map(LongWritable key, SqoopRecord val, Context context),最後生成的Key是行數據,由QueryResult生成,Value是NullWritable.get()
(4)導入控制
      Sqoop不需要每次都導入整張表。例如,可以指定導入表的部分列。用戶也可以在查詢中加入WHERE子句(使用—where參數),以此來限定需要導入的記錄。
(5)導入和一致性
      在向HDFS導入數據時,重要的是要確保訪問的是數據源的一致性快照。保證一致性的最好方法是在導入時不允許運行任何對錶中現有數據進行更新的進程。
(6)增量導入
      定期運行導入時一種很常見的方式,這樣做可以使HDFS的數據與數據庫的數據保持同步。爲此需要識別哪些是新數據。對於某一行來說,只有當特定列(由—check-column參數指定)的值大於指定值(通過—last-value設置)時,Sqoop纔會導入該行數據。
(7)直接模式導入
      在Sqoop的文檔中將使用外部工具的方法稱爲直接模式。
(8)導入大對象

​  由於大對象單條記錄太大,無法在內存中實現物化。爲了克服這個困難,當導入大對象數據大於閾值16M時(通過sqoop.inline.lob.length.max設置,以字節爲單位),Sqoop將導入的大對象存儲在LobFile格式的單獨文件中。LobFile格式能夠存儲非常大的單條記錄(使用了64位的地址空間),每條記錄保存一個大對象。LobFile格式允許客戶端持有對記錄的引用,而不訪問記錄內容,對記錄的訪問通過java.io.InputStream(用於二進制對象)或java.io.Reader(用於字符對象)來實現的。在導入一條記錄時,所有的“正常”字段會在一個文本文件中一起被物化,同時還生成一個指向保存CLOB或BLOB列的LobFile文件的引用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章