移動計算比移動數據更划算

原創

2019-03-11 01:00

一、如何解決PB級數據計算問題

數據是龐大的，程序比數據小的多，顯然將數據輸入給程序是不划算的，那麼反其而行，將程序分發到數據所在的地方進行計算，豈不划算？

二、如何實現移動計算程序到數據所在的位置進行計算

獎待處理的數據存儲在服務器集羣的所有服務器上，主要使用HDFS分佈式文件存儲系統，將文件分成很多塊（BLOCK），以塊爲單位將數據存儲在集羣的服務器上。
大數據引擎根據集羣不同服務器的計算能力，在每臺服務器上啓動若干分佈式任務執行進程，這些進程會等待引擎給他們分配執行任務。
使用大數據計算框架支持的模型進行編程，比如Hadoop的MapReduce編程模型，或者Spark的RDD編程模型。應用程序編寫好以後，將其打包。MapReduce和Spark都是在JVM環境中運行的，所以打包出來時一個jar包。
用Hadoop或這Spark的啓動命令執行這個應用程序的jar包，首先執行引擎會解析程序要處理的數據的輸入路徑。根據數據量的大小，將數據分成若干片（Split),每個數據片都分配一個任務執行進程去處理。
任務執行進程收到分配的任務後，檢查自己是否有任務對應的程序包，如果沒有就去下載，下載以後通過反射的方式加載程序。
加載程序後，任務執行程序根據分配的數據片的文件地址和數據在文件內的偏移量讀取數據，並將數據輸入給應用程序從而實現分佈式服務器集羣中的移動計算程序。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

創新工具：2024年開發者必備的一款表格控件（二）

系列文章：《創新工具：2024年開發者必備的一款表格控件》前言在現代工作環境中，信息的處理和管理是至關重要的。表格是一種常見的數據呈現和整理工具，被廣泛應用於各行各業。然而，隨着技術的不斷髮展，市場對錶格控件的需求也越來越高。隨着工作

葡萄城技術團隊

2024-05-09 14:31:06

Java ThreadLocal 類的使用

基於 Java - ThreadLocal 類的使用整理 ThreadLocal 表示線程的局部變量，當前線程可以通過 set/get 來對這個局部變量進行操作，其他線程不能對其進行訪問 ThreadLocal 支持泛型，也就是

Higurashi-kagome

2024-05-09 14:27:55

rancher docker 安裝

sudo docker run --privileged -d --restart=unless-stopped -p 8080:80 -p 443:443 --name=rancher rancher/rancher:stable

2024-05-09 14:25:05

Kafka存儲機制

Kafka之所以有那麼高的吞吐量，很大程度取決於它的存儲機制，一個主題可以有多個partition，每個partition有一個leader和多個副本，讀寫主要通過leader，副本的主要功能還是爲了保證數據的安全性和保證可靠性，當某個pa

人不瘋狂枉一生

2024-05-09 14:22:54

.NET有哪些好用的定時任務調度框架

前言定時任務調度的相關業務在日常工作開發中是一個十分常見的需求，經常有小夥伴們在技術羣提問：有什麼好用的定時任務調度框架推薦的？今天大姚給大家分享5個.NET開源、簡單、易用、免費的任務調度框架，幫助大家在做定時任務調度框架技術選型的時候

2024-05-09 14:21:54

elk3

好像還可以用下面方式查尋索引，參考如下 result = requests.get('http://10.xx.xx.57:9200/mysql-slowlog-*/_search', data=json.d

2024-05-09 14:13:53

aws語音呼叫調用，告警電話

import requests data = { 'channel': '99x', 'called_number': '135xxx', 'tts_code': 'TTS_xx', 'tts_p

2024-05-09 14:13:53

mysql~數據完整性考慮~外鍵約束

在MySQL中，當爲表添加外鍵約束時，可以指定在刪除或更新父表記錄時的行爲。下面進行總結： CASCADE：當父表中的記錄被刪除或更新時，自動刪除或更新子表中相關聯的記錄。這意味着如果父表中的記錄被刪除，那麼相應的子表中與之關聯的記錄也

2024-05-09 14:12:33

深度學習框架火焰圖pprof和CUDA Nsys配置指南

注：如下是在做深度學習框架開發時，用到的火焰圖pprof和 CUDA Nsys 配置指南，可能對大家有一些幫助，就此分享。一些是基於飛槳的Docker鏡像配置的。一、環境 & 工具配置 0. 開發機配置 # 1.構建鏡像, 記得映射端

2024-05-09 14:10:13

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

PDF/A和PDF/X是兩種有特定用途的PDF格式，具體查看以下： PDF/A是一種用於長期存檔的PDF格式，它旨在確保文檔的內容和格式在未來的訪問中保持不變。如果您需要對文件進行長期存檔，比如法律文件或檔案記錄，將其轉換爲PDF/A格式

2024-05-09 14:10:03

車牌識別控制檯可快速整合二次開發

完整車牌號識別程序，可以識別車牌和顏色，可以集成到項目中。可通過啓動參數傳入地址，通過控制檯輸出結果，通過捕獲控制檯輸出流進行快速集成到項目中。使用深度學習框架實現，識別效率快，識別率高。裏面包含onnx模型文件，先識別車牌外型，再OCR

2024-05-09 14:09:23

爬蟲兩種繞過5s盾的方法

import cloudscraper proxies = { "http": "http://127.0.0.1:7890", "https": "http://127.0.0.1:7890", } headers =

2024-05-09 14:06:02

【轉】[C#] WebAPI 防止併發調用二（冥等性）

來自：阿里的通義靈碼使用冪等性設計來防止C# WebAPI方法的併發調用是一種推薦的方法，因爲它不會阻塞其他請求，而是確保多次調用同一個操作會產生相同的結果。這裏有一個簡單的示例，說明如何在WebAPI控制器中實現冪等性的API： u

2024-05-09 14:04:52

【轉】[C#] WebAPI 防止併發調用一（鎖）

來源：阿里的通義靈碼在C# WebAPI中，如果你想要使用鎖來防止併發調用，你可以使用System.Threading.Mutex或System.Threading.Lock來實現。但是，這種方法通常不推薦，因爲它可能會導致請求阻塞，從

2024-05-09 14:04:52

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

來自：https://jingyan.baidu.com/article/60ccbceb66c52625cbb19732.html 選項 - 文本編輯器 - Transact-SQL - IntelliSense 把啓用 Intelli

2024-05-09 14:04:52

24小時熱門文章

最新文章

最新評論文章