精心整理 | 大數據體系知識術語

大數據的出現帶來了許多新的術語，但這些術語往往比較難以理解。因此，我們通過本文給出一個常用的大數據術語表，拋磚引玉，供大家深入瞭解，部分定義參考了相應的博客文章。

聚合 (Aggregation) – 搜索、合併、顯示數據的過程
算法 (Algorithms) – 可以完成某種數據分析的數學公式
分析法 (Analytics) – 用於發現數據的內在涵義
異常檢測 (Anomaly detection) – 在數據集中搜索與預期模式或行爲不匹配的數據項。除了“Anomalies”,用來表示異常的詞有以下幾種：outliers, exceptions, surprises, contaminants.他們通常可提供關鍵的可執行信息
匿名化 (Anonymization) – 使數據匿名，即移除所有與個人隱私相關的數據
應用 (Application) – 實現某種特定功能的計算機軟件
人工智能 (Artificial Intelligence) – 研發智能機器和智能軟件，這些智能設備能夠感知周遭的環境，並根據要求作出相應的反應，甚至能自我學習。

行爲分析法 (Behavioural Analytics) – 這種分析法是根據用戶的行爲如“怎麼做”，“爲什麼這麼做”，以及“做了什麼”來得出結論，而不是僅僅針對人物和時間的一門分析學科，它着眼於數據中的人性化模式
大數據科學家 (Big Data Scientist) – 能夠設計大數據算法使得大數據變得有用的人
大數據創業公司 (Big data startup) – 指研發最新大數據技術的新興公司
生物測定術 (Biometrics) – 根據個人的特徵進行身份識別
B字節 (BB: Brontobytes) – 約等於1000 YB(Yottabytes)，相當於未來數字化宇宙的大小。1 B字節包含了27個0！
商業智能 (Business Intelligence) – 是一系列理論、方法學和過程，使得數據更容易被理解

分類分析 (Classification analysis) – 從數據中獲得重要的相關性信息的系統化過程; 這類數據也被稱爲元數據(meta data),是描述數據的數據
雲計算 (Cloud computing) – 構建在網絡上的分佈式計算系統，數據是存儲於機房外的（即雲端）
聚類分析 (Clustering analysis) – 它是將相似的對象聚合在一起，每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性
冷數據存儲 (Cold data storage) – 在低功耗服務器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時
對比分析 (Comparative analysis) – 在非常大的數據集中進行模式匹配時，進行一步步的對比和計算過程得到分析結果
複雜結構的數據 (Complex structured data) – 由兩個或多個複雜而相互關聯部分組成的數據，這類數據不能簡單地由結構化查詢語言或工具(SQL)解析
計算機產生的數據 (Computer generated data) – 如日誌文件這類由計算機生成的數據
併發 (Concurrency) – 同時執行多個任務或運行多個進程
相關性分析 (Correlation analysis) – 是一種數據分析方法，用於分析變量之間是否存在正相關，或者負相關
客戶關係管理 (CRM: Customer Relationship Management) – 用於管理銷售、業務過程的一種技術，大數據將影響公司的客戶關係管理的策略

儀表板 (Dashboard) – 使用算法分析數據，並將結果用圖表方式顯示於儀表板中
數據聚合工具 (Data aggregation tools) – 將分散於衆多數據源的數據轉化成一個全新數據源的過程
數據分析師 (Data analyst) – 從事數據分析、建模、清理、處理的專業人員
數據庫 (Database) – 一個以某種特定的技術來存儲數據集合的倉庫
數據庫即服務 (Database-as-a-Service) – 部署在雲端的數據庫，即用即付，例如亞馬遜雲服務 (AWS: Amazon Web Services)
數據庫管理系統 (DBMS: Database Management System) – 收集、存儲數據，並提供數據的訪問
數據中心 (Data centre) – 一個實體地點，放置了用來存儲數據的服務器
數據清洗 (Data cleansing) – 對數據進行重新審查和校驗的過程，目的在於刪除重複信息、糾正存在的錯誤，並提供數據一致性
數據管理員 (Data custodian) – 負責維護數據存儲所需技術環境的專業技術人員
數據道德準則 (Data ethical guidelines) – 這些準則有助於組織機構使其數據透明化，保證數據的簡潔、安全及隱私
數據訂閱 (Data feed) – 一種數據流，例如Twitter訂閱和RSS
數據集市 (Data marketplace) – 進行數據集買賣的在線交易場所
數據挖掘 (Data mining) – 從數據集中發掘特定模式或信息的過程
數據建模 (Data modelling) – 使用數據建模技術來分析數據對象，以此洞悉數據的內在涵義
數據集 (Data set) – 大量數據的集合
數據虛擬化 (Data virtualization) – 數據整合的過程，以此獲得更多的數據信息，這個過程通常會引入其他技術，例如數據庫，應用程序，文件系統，網頁技術，大數據技術等等
去身份識別 (De-identification) – 也稱爲匿名化(anonymization)，確保個人不會通過數據被識別
判別分析 (Discriminant analysis) – 將數據分類；按不同的分類方式，可將數據分配到不同的羣組，類別或者目錄。是一種統計分析法，可以對數據中某些羣組或集羣的已知信息進行分析，並從中獲取分類規則。
分佈式文件系統 (Distributed File System) – 提供簡化的，高可用的方式來存儲、分析、處理數據的系統
文件存貯數據庫 (Document Store Databases) – 又稱爲文檔數據庫(document-oriented database), 爲存儲、管理、恢復文檔數據而專門設計的數據庫，這類文檔數據也稱爲半結構化數據

探索性分析 (Exploratory analysis) – 在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法
E字節 (EB: Exabytes) – 約等於1000 PB(petabytes), 約等於1百萬 GB。如今全球每天所製造的新信息量大約爲1 EB
提取-轉換-加載 (ETL: Extract, Transform and Load) – 是一種用於數據庫或者數據倉庫的處理過程，天善學院有國內唯一的最全的 ETL 學習課程。即從各種不同的數據源提取(E)數據，並轉換(T)成能滿足業務需要的數據，最後將其加載(L)到數據庫

故障切換 (Failover) – 當系統中某個服務器發生故障時，能自動地將運行任務切換到另一個可用服務器或節點上
容錯設計 (Fault-tolerant design) – 一個支持容錯設計的系統應該能夠做到當某一部分出現故障也能繼續運行

遊戲化 (Gamification) – 在其他非遊戲領域中運用遊戲的思維和機制，這種方法可以以一種十分友好的方式進行數據的創建和偵測，非常有效。
圖形數據庫 (Graph Databases) – 運用圖形結構(例如，一組有限的有序對，或者某種實體)來存儲數據，這種圖形存儲結構包括邊緣、屬性和節點。它提供了相鄰節點間的自由索引功能，也就是說，數據庫中每個元素間都與其他相鄰元素直接關聯。
網格計算 (Grid computing) – 將許多分佈在不同地點的計算機連接在一起，用以處理某個特定問題，通常是通過雲將計算機相連在一起。

Hadoop – 一個開源的分佈式系統基礎框架，可用於開發分佈式程序，進行大數據的運算與存儲。
Hadoop 數據庫 (HBase) – 一個開源的、非關係型、分佈式數據庫，與Hadoop框架共同使用
HDFS – Hadoop 分佈式文件系統 (Hadoop Distributed File System)；是一個被設計成適合運行在通用硬件(commodity hardware)上的分佈式文件系統
高性能計算 (HPC: High-Performance-Computing) – 使用超級計算機來解決極其複雜的計算問題

內存數據庫 (IMDB: In-memory) – 一種數據庫管理系統，與普通數據庫管理系統不同之處在於，它用主存來存儲數據，而非硬盤。其特點在於能高速地進行數據的處理和存取。
物聯網 (Internet of Things) – 在普通的設備中裝上傳感器，使這些設備能夠在任何時間任何地點與網絡相連。

法律上的數據一致性 (Juridical data compliance) – 當你使用的雲計算解決方案，將你的數據存儲於不同的國家或不同的大陸時，就會與這個概念扯上關係了。你需要留意這些存儲在不同國家的數據是否符合當地的法律。

鍵值數據庫 (KeyValue Databases) – 數據的存儲方式是使用一個特定的鍵，指向一個特定的數據記錄，這種方式使得數據的查找更加方便快捷。鍵值數據庫中所存的數據通常爲編程語言中基本數據類型的數據。

延遲 (Latency) – 表示系統時間的延遲
遺留系統 (Legacy system) – 是一種舊的應用程序，或是舊的技術，或是舊的計算系統，現在已經不再支持了。
負載均衡 (Load balancing) – 將工作量分配到多臺電腦或服務器上，以獲得最優結果和最大的系統利用率。
位置信息 (Location data) – GPS信息，即地理位置信息。
日誌文件 (Log file) – 由計算機系統自動生成的文件，記錄系統的運行過程。

M2M數據 (Machine2Machine data) – 兩臺或多臺機器間交流與傳輸的內容
機器數據 (Machine data) – 由傳感器或算法在機器上產生的數據
機器學習 (Machine learning) – 人工智能的一部分，指的是機器能夠從它們所完成的任務中進行自我學習，通過長期的累積實現自我改進。
MapReduce – 是處理大規模數據的一種軟件框架(Map: 映射，Reduce: 歸納)。
大規模並行處理 (MPP: Massively Parallel Processing) – 同時使用多個處理器(或多臺計算機) 處理同一個計算任務。
元數據 (Metadata) – 被稱爲描述數據的數據，即描述數據數據屬性(數據是什麼)的信息。
MongoDB – 一種開源的非關係型數據庫(NoSQL database)
多維數據庫 (Multi-Dimensional Databases) – 用於優化數據聯機分析處理(OLAP)程序，優化數據倉庫的一種數據庫。
多值數據庫 (MultiValue Databases) – 是一種非關係型數據庫(NoSQL), 一種特殊的多維數據庫：能處理3個維度的數據。主要針對非常長的字符串，能夠完美地處理HTML和XML中的字串。

自然語言處理 (Natural Language Processing) – 是計算機科學的一個分支領域，它研究如何實現計算機與人類語言之間的交互。
網絡分析 (Network analysis) – 分析網絡或圖論中節點間的關係，即分析網絡中節點間的連接和強度關係。
NewSQL – 一個優雅的、定義良好的數據庫系統，比SQL更易學習和使用，比NoSQL更晚提出的新型數據庫
NoSQL – 顧名思義，就是“不使用SQL”的數據庫。這類數據庫泛指傳統關係型數據庫以外的其他類型的數據庫。這類數據庫有更強的一致性，能處理超大規模和高併發的數據。

對象數據庫 (Object Databases) – (也稱爲面象對象數據庫)以對象的形式存儲數據，用於面向對象編程。它不同於關係型數據庫和圖形數據庫，大部分對象數據庫都提供一種查詢語言，允許使用聲明式編程(declarative programming)訪問對象.
基於對象圖像分析 (Object-based Image Analysis) – 數字圖像分析方法是對每一個像素的數據進行分析，而基於對象的圖像分析方法則只分析相關像素的數據，這些相關像素被稱爲對象或圖像對象。
操作型數據庫 (Operational Databases) – 這類數據庫可以完成一個組織機構的常規操作，對商業運營非常重要，一般使用在線事務處理，允許用戶訪問、收集、檢索公司內部的具體信息。
優化分析 (Optimization analysis) – 在產品設計週期依靠算法來實現的優化過程，在這一過程中，公司可以設計各種各樣的產品並測試這些產品是否滿足預設值。
本體論 (Ontology) – 表示知識本體，用於定義一個領域中的概念集及概念之間的關係的一種哲學思想。(譯者注: 數據被提高到哲學的高度，被賦予了世界本體的意義，成爲一個獨立的客觀數據世界)
異常值檢測 (Outlier detection) – 異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象，該對象與數據集中的其他它相去甚遠，因此，異常值的出現意味着系統發生問題，需要對此另加分析。

模式識別 (Pattern Recognition) – 通過算法來識別數據中的模式，並對同一數據源中的新數據作出預測
P字節 (PB: Petabytes) – 約等於1000 TB(terabytes), 約等於1百萬 GB (gigabytes)。歐洲核子研究中心(CERN)大型強子對撞機每秒產生的粒子個數就約爲1 PB
平臺即服務 (PaaS: Platform-as-a-Service) – 爲雲計算解決方案提供所有必需的基礎平臺的一種服務
預測分析 (Predictive analysis) – 大數據分析方法中最有價值的一種分析方法，這種方法有助於預測個人未來(近期)的行爲，例如某人很可能會買某些商品，可能會訪問某些網站，做某些事情或者產生某種行爲。通過使用各種不同的數據集，例如歷史數據，事務數據，社交數據，或者客戶的個人信息數據，來識別風險和機遇
隱私 (Privacy) – 把具有可識別出個人信息的數據與其他數據分離開，以確保用戶隱私。
公共數據 (Public data) – 由公共基金創建的公共信息或公共數據集。

數字化自我 (Quantified Self) – 使用應用程序跟蹤用戶一天的一舉一動，從而更好地理解其相關的行爲
查詢 (Query) – 查找某個問題答案的相關信息

再識別 (Re-identification) – 將多個數據集合並在一起，從匿名化的數據中識別出個人信息
迴歸分析 (Regression analysis) – 確定兩個變量間的依賴關係。這種方法假設兩個變量之間存在單向的因果關係(譯者注：自變量，因變量，二者不可互換)
RFID – 射頻識別; 這種識別技術使用一種無線非接觸式射頻電磁場傳感器來傳輸數據
實時數據 (Real-time data) – 指在幾毫秒內被創建、處理、存儲、分析並顯示的數據
推薦引擎 (Recommendation engine) – 推薦引擎算法根據用戶之前的購買行爲或其他購買行爲向用戶推薦某種產品
路徑分析 (Routing analysis) – 針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優路徑，以達到降低燃料費用，提高效率的目的

半結構化數據 (Semi-structured data) – 半結構化數據並不具有結構化數據嚴格的存儲結構，但它可以使用標籤或其他形式的標記方式以保證數據的層次結構
情感分析 (Sentiment Analysis) – 通過算法分析出人們是如何看待某些話題
信號分析 (Signal analysis) – 指通過度量隨時間或空間變化的物理量來分析產品的性能。特別是使用傳感器數據。
相似性搜索 (Similarity searches) – 在數據庫中查詢最相似的對象，這裏所說的數據對象可以是任意類型的數據
仿真分析 (Simulation analysis) – 仿真是指模擬真實環境中進程或系統的操作。仿真分析可以在仿真時考慮多種不同的變量，確保產品性能達到最優
智能網格 (Smart grid) – 是指在能源網中使用傳感器實時監控其運行狀態，有助於提高效率
軟件即服務 (SaaS: Software-as-a-Service) – 基於Web的通過瀏覽器使用的一種應用軟件
空間分析 (Spatial analysis) – 空間分析法分析地理信息或拓撲信息這類空間數據，從中得出分佈在地理空間中的數據的模式和規律
SQL – 在關係型數據庫中，用於檢索數據的一種編程語言
結構化數據 (Structured data) -可以組織成行列結構，可識別的數據。這類數據通常是一條記錄，或者一個文件，或者是被正確標記過的數據中的某一個字段，並且可以被精確地定位到。

T字節 (TB: Terabytes) – 約等於1000 GB(gigabytes)。1 TB容量可以存儲約300小時的高清視頻。
時序分析 (Time series analysis) – 分析在重複測量時間裏獲得的定義良好的數據。分析的數據必須是良好定義的，並且要取自相同時間間隔的連續時間點。
拓撲數據分析 (Topological Data Analysis) – 拓撲數據分析主要關注三點：複合數據模型、集羣的識別、以及數據的統計學意義。
交易數據 (Transactional data) – 隨時間變化的動態數據
透明性 (Transparency) – 消費者想要知道他們的數據有什麼作用、被作何處理，而組織機構則把這些信息都透明化了。

非結構化數據 (Un-structured data) – 非結構化數據一般被認爲是大量純文本數據，其中還可能包含日期，數字和實例。

價值 (Value) – (譯者注：大數據4V特點之一) 所有可用的數據，能爲組織機構、社會、消費者創造出巨大的價值。這意味着各大企業及整個產業都將從大數據中獲益。
可變性 (Variability) – 也就是說，數據的含義總是在（快速）變化的。例如，一個詞在相同的推文中可以有完全不同的意思。
多樣 (Variety) – (譯者注：大數據4V特點之一) 數據總是以各種不同的形式呈現，如結構化數據，半結構化數據，非結構化數據，甚至還有複雜結構化數據
高速 (Velocity) – (譯者注：大數據4V特點之一) 在大數據時代，數據的創建、存儲、分析、虛擬化都要求被高速處理。
真實性 (Veracity) – 組織機構需要確保數據的真實性，才能保證數據分析的正確性。因此，真實性(Veracity)是指數據的正確性。
可視化 (Visualization) – 只有正確的可視化，原始數據纔可被投入使用。這裏的“可視化”並非普通的圖型或餅圖，可視化指是的複雜的圖表，圖表中包含大量的數據信息，但可以被很容易地理解和閱讀。
大量 (Volume) – (譯者注：大數據4V特點之一) 指數據量，範圍從Megabytes至Brontobytes

天氣數據 (Weather data) – 是一種重要的開放公共數據來源，如果與其他數據來源合成在一起，可以爲相關組織機構提供深入分析的依據

XML數據庫 (XML Databases) – XML數據庫是一種以XML格式存儲數據的數據庫。XML數據庫通常與面向文檔型數據庫相關聯，開發人員可以對XML數據庫的數據進行查詢，導出以及按指定的格式序列化

Y字節 (Yottabytes) – 約等於1000 ZB (Zettabytes), 約等於250萬億張DVD的數據容量。現今，整個數字化宇宙的數據量爲1 YB, 並且將每18年翻一番。

Z字節 (ZB: Zettabytes) – 約等於1000 EB (Exabytes), 約等於1百萬 TB。據預測，到2016年全球範圍內每天網絡上通過的信息大約能達到1 ZB。

附：存儲容量單位換算表

1 Bit (比特) = Binary Digit

8 Bits = 1 Byte (字節)

1,000 Bytes = 1 Kilobyte

1,000 Kilobytes = 1 Megabyte

1,000 Megabytes = 1 Gigabyte

1,000 Gigabytes = 1 Terabyte

1,000 Terabytes = 1 Petabyte

1,000 Petabytes = 1 Exabyte

1,000 Exabytes = 1 Zettabyte

1,000 Zettabytes = 1 Yottabyte

1,000 Yottabytes = 1 Brontobyte

1,000 Brontobytes = 1 Geopbyte

精心整理 | 大數據體系知識術語

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

IBM SPSS Statistics Subscription新版本發佈

精心整理 | 大數據體系知識術語

紐約時報 | 一個機器人導致六名工人失業，工資下降四分之三

深入分析 BI 數據可視化市場 SaaS 模式

從自動駕駛到機器學習：解讀2017科技發展的15大趨勢

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結