大數據應用期末複習

第二週第二次作業

1、HDFS有哪些侷限性？

不適合低延遲的數據訪問，無法高效存儲大量小文件，不支持多用戶隨機寫入及任意修改文件。

命名空間的限制：分佈式文件系統只有一個名稱節點且保存在內存中，因此名稱節點能夠容納對象的個數受到內存空間大小的限制

性能的瓶頸：整個分佈式文件系統的吞吐量受限於單個名稱節點的吞吐量

集羣的可用性：一旦這個唯一的節點發生故障，會導致整個集羣變的不可用。

hdfs只允許一個文件有一個寫入者，不允許多個用戶對同一個文件執行寫操作，而且只允許對文件執行追加操作，不能執行隨機寫操作。

2、HDFS名稱節點的數據結構、啓動過程是怎樣的？

名稱節點負責分佈式文件系統的命名空間，保留兩個核心的數據結構：EditLog 和 FsImage

FsImage：維護文件系統樹以及文件樹中所有的文件和文件夾的元數據。

EditLog：記錄了所有針對文件的增刪，重命名操作。

名稱節點記錄了各個塊所在的節點的位置信息，但是並不是持久化存儲這些信息，而是在系統每次啓動時候掃描所有的數據節點重構得到這些信息。

啓動過程：名稱節點在啓動時，會將FsImage的內容加載到內存當中，然後執行EditLog文件中的各項操作，使得內存中的元數據保持最新。這個操作完成以後，就會創建一個新的FsImage文件和空的EditLog文件。名稱節點啓動成功並進入正常運行狀態以後，HDFS中的更新操作都被寫入到EditLog而不是直接寫入F是Image，這是因爲對於分佈式文件系統而言，FsImage文件通常都很龐大，如果所有的更新操作都直接往FsImage文件里加，那麼系統就會變得非常的緩慢。名稱節點啓動過程中處於安全模式，只提供讀操作不提供寫操作，啓動成功，安全模式解除後，對外提供寫操作。

3、HDFS第二名稱節點有什麼作用？

爲了有效解決EditLog逐漸變大帶來的問題。

可以完成EditLog與FsImage的合併操作，減小EditLog文件大小，縮短名稱節點的啓動時間。縮短名稱節點重啓時間
可以作爲名稱節點的檢查節點，週期性的備份名稱節點中的元數據信息。

4、HDFS第二名稱節點的工作過程是怎樣的？

https://blog.csdn.net/qq_35688140/article/details/83582467

5、HDFS客戶端可以通過什麼方式來訪問HDFS中的數據？

類似shell的命令行方式，或者java API

第二週第一次作業

什麼是文件系統：

一堆文件夾，然後裏面又有一堆文件，這些東東就是文件系統的表象。那本質是什麼呢？我們知道這些東西其實都是存在磁盤上的，具體磁盤空間是什麼樣的我們並不知道，但文件系統軟件給我們呈現出來了一個非常清晰的表象，我們可以創建、刪除和複製這些文件。而實現這些功能是通過一個軟件實現的，這個軟件就是文件系統。

文件系統一般會把磁盤空間劃分爲每512字節一組，稱爲磁盤塊，它是文件系統讀寫操作的最小單位，文件系統的塊（block）通常是磁盤塊的整數倍，即每次讀寫的數據量必須是磁盤塊大小的整數倍。

1、什麼是Hadoop？

hadoop是開源的分佈式計算平臺，核心構mapreduce 和分佈式文件系統hdfs。基於java語言編寫，具有良好的跨平臺特性。

2、大數據生態系統主要包括哪些方面？

hdfs（分佈式文件系統），mapreduce（分佈式計算框架），Hbase（分佈式數據庫），zookeeper（分佈式協作服務），Pig（數據流處理），YARN（資源調度和管理框架），Flume（日誌收集），Sqoop（數據庫ETL）

3、計算機集羣的基本架構是怎樣的？

機架由若干節點通過網絡互連，機架之間通過交換機互聯

4、簡述分佈式文件系統的結構？

分佈式文件系統在物理結構上是由計算機集羣上的多個節點構成的，一類爲名稱節點，一類爲數據節點。
名稱節點負責文件和目錄的創建，刪除和重命名等，同時管理着數據節點和文件塊的映射關係。
- 客戶端只有訪問名稱節點才能找到請求的文件塊所在的位置，進而到相應位置讀取所需文件塊。
數據節點負責數據的存儲和讀取，在存儲時，由名稱節點分配存儲位置，然後由客戶端把數據直接寫入到相應的數據節點。
- 數據節點也要根據名稱節點的命令創建，刪除數據塊和冗餘複製。

第一週第二次作業

並行編程模型 mapreduce map/reduce HDFS hadoop distributed file system

1、什麼是雲計算，它提供了哪幾種服務模式？

雲計算是分佈式計算的一種，指通過網絡雲將巨大的數據計算處理程序分解成無數個小程序，然後通過多部服務器組成的系統進行處理和分析這些小程序得到結果並返回給用戶。

基礎設施即服務 Iaas
平臺即服務 Paas
軟件即服務 Saas

雲分類：公有云，私有云，混合雲

2、雲計算的關鍵技術是什麼?

虛擬化
分佈式存儲
分佈式計算
多租戶

3、什麼是物聯網？

物聯網是物物相連的互聯網，是互聯網的延伸，它利用局部網絡或物聯網等通信技術把傳感器，控制器，機器，人員和物等通過新的方式結合在一起，形成人與物，物與物相連，實現信息化和遠程管理控制。

4、從技術架構上看，物聯網可以分爲哪幾層？

感知層
網絡層
處理層
應用層

5、物聯網的關鍵技術是什麼？

識別與感知技術
網絡與通信技術
數據挖掘與融合技術

6、什麼是傳感器？

是一種能感受規定的被測量件並按照一定的規律轉換成可用信號的器件或者裝置

7、大數據、雲計算和物聯網之間有什麼關係？

雲計算爲大數據提供了技術基礎，大數據爲雲計算提供用武之地。

物聯網是大數據的重要來源，大數據技術爲物聯網數據分析提供支撐

雲計算爲物聯網提供海量數據存儲能力

物聯網爲雲計算提供了廣闊的應用空間

第一週第一次作業

1、三次信息化浪潮分別以什麼爲標誌，解決了什麼問題？

個人計算機信息處理
互聯網信息傳輸
物聯網雲計算大數據信息爆炸

2、信息科技從哪些方面爲大數據時代的到來提供了技術支撐？

信息科技主要解決的問題爲：信息存儲，信息處理，信息傳輸

存儲設備容量不斷增加
cpu處理能力大幅提升
網絡帶寬不斷增大

3、數據的產生方式大致經歷了哪三個階段？

運營式系統階段
用戶原創內容階段
感知式系統階段

4、大數據具有哪四個特點？

4v,volume,variety,velocity,value

數據量大
數據種類繁多
處理速度快
價值密度低

5、大數據對人類思維方式有什麼影響？

人類思維方式的三種轉變：全樣而非抽樣，效率而非精確，相關而非因果

6、什麼是大數據技術，它主要包括哪幾方面？

大數據技術是一系列使用非傳統的工具來對大量的結構化，半結構化和非結構化數據進行處理，從而獲得分析和預測結果的一系列數據處理和分析技術。

技術層面：數據採集與預處理，數據存儲和管理，數據處理和分析，數據安全和隱私保護。

7、大數據支持哪些計算模式？

批處理計算
流計算
圖計算
查詢分析計算

大數據應用期末複習

第二週第二次作業

第二週第一次作業

第一週第二次作業

第一週第一次作業

數據科學隨筆

迴歸模型評估

常用異常值檢測方法

pandas進行pm2.5可視化的一個小案例

One Informe

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結