《Mining the massive data》第一章筆記

原創

2020-06-25 06:41

《Mining the massive data》第一章筆記

數據挖掘的基本概念
數據挖掘是數據“模型”的發現過程，e.g.統計建模
機器學習vs數據挖掘
一些數據挖掘方法中使用了機器學習算法，如貝葉斯網絡， SVM ，決策樹，隱馬爾科夫模型etc。
機器學習擅長的典型場景是人民對數據中的尋找目標一無所知，如推薦算法。但如果我們隊挖掘的目標能夠直接描述，機器學習算法並不高效。
數據建模的方法
1）數據彙總：對數據進行簡潔的近似彙總描述。e.g. PageRank，聚類
2）特徵抽取：從數據中抽取特徵，並忽略其他。e.g. 頻繁項集，相似性
數據挖掘的統計限制

邦弗朗尼原理（Bonferroni correction）
假設數據隨機，計算所尋找事件的期望，如果該期望值顯著高於你所希望找到的真實事件的數目，那麼尋找到的結果都是臆造的，是統計的假象。

習題

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《分佈式服務架構：原理、設計與實戰》

1 分佈式微服務架構設計原理 1.1 從傳統單體架構到服務化架構 JEE架構針對企業級應用定義，進行了邏輯分層，包括Web層、業務邏輯層、數據存取層，大多數項目仍然部署在同一個應用服務器上的一個JVM進程中。 SSH架構仍然以

2020-07-08 11:23:27

黃階低級 - 《 Java 核心》- 4.2 使用預定義類 - 修改0次

使用預定義類在 Java 中，沒有類就無法做任何事情！並不是所有類都有面向對象特徵，例如， Math 類。 1、對象和對象變量要想使用對象，就必須首先構造對象，並指定其初始狀態，然後，對對象應用方法通常，我們

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 3.2 註釋 - 修改0次

Java 註釋在 Java 中，有三種註釋方式 1、單行註釋（短註釋）註釋內容從 // 開始到本行結束 System.out.println("we will not use 'Hello World !'");//這是單

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 4.4 靜態域和靜態方法 - 修改0次

靜態域和靜態方法在絕大多數的面向對象程序設計語言中，靜態域被稱爲類域，術語“ static ”只是沿用了 C++ 的叫法，並無實際意義 1、靜態常量和靜態方法靜態變量用的比較少，靜態常量卻用的比較多一個常用的靜態常

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 3.5 運算符 - 修改0次

1、自增自減運算符有兩種形式，前綴和後綴，前綴先進行加1運算，後綴使用變量原來的值。 int m = 7; int n = 7; int a = 2 * ++m;// now a is 16, m is 8 int b =

2020-07-08 06:59:06

黃階低級 - 《 Java 核心》- 4.0 對象和類 - 修改0次

對象和類開始新的一章，主要介紹: 1、面向對象程序設計 2、如何創建標準 Java 類庫中的類的對象 3、如何編寫自己的類

2020-07-08 06:59:06

深度之眼《Python基礎+數據科學入門》筆記

文|Seraph 00 | 緒論和環境配置通常學員機器學習實戰過程中的問題：寫的代碼不夠簡潔、高效、強壯。 Python是解釋型動態語言，與編譯型靜態語言（C++等）的區別是：靜態語言編譯的時候就已經知道數據類型，而動態語言執

2020-07-08 00:56:51

《Java高併發編程詳解-多線程架構與設計》線程安全與數據同步

摘自《Java高併發編程詳解-多線程架構與設計》第四章文章目錄定義Synchronized使用深入 synchronized關鍵字使用synchronized注意的問題4.容易死鎖的原因死鎖檢測定義共享資源：多個線程對同

2020-07-07 22:20:30

《Java高併發編程詳解-多線程架構與設計》Thread API

摘自《Java高併發編程詳解-多線程架構與設計》第三章文章目錄1.sleep不會釋放monitor鎖的所有權2.使用TimeUnit.XX.sleep代替Thread.sleep3.yield讓出CPU資源4.yield與s

2020-07-07 22:20:30

《Java高併發編程詳解-多線程架構與設計》線程間的通信

摘自《Java高併發編程詳解-多線程架構與設計》第五章文章目錄同步、異步、阻塞、非阻塞概念Monitor鎖wait 與 notify使用wait的注意事項使用notify的注意例子：測試主動interrupt對if中使用wa

2020-07-07 22:20:30

第三章存儲與檢索

第二章關注的是將數據錄入數據庫系統的格式，以及檢索出來的機制，這章關注同樣的問題，但是是從數據庫的視角來看：數據庫如何存儲我們的數據，以及如何檢索出我們需要的數據。書中開篇列舉了一個使用bash 命令製作的簡單數據庫的例子：

理想你今年几岁

2020-07-07 21:58:12

【讀書筆記】金融理財，半佛推薦，小狗錢錢_2020.05.01

【概述】書名：小狗錢錢作者：博多·舍費爾日期：2020年05月01日讀書用時：413頁，8小時。【讀書筆記】 ◆ 童話與理財 >> 我們從教科書中知道，很久很久以前，貨幣（金錢）是爲方便人們進行貨物交換而誕生的，是爲人服務的

2020-07-07 21:54:02

【讀書筆記】管理技巧-逆商思維，逆商：我們該如何應對壞事件_2020.07.01

【概述】書名：逆商：我們該如何應對壞事件作者：保羅·史託茲日期：2020年07月01日讀書用時：1028頁，8.5小時。【讀書筆記】 ◆ 推薦序一逆風飛揚 >> 逆商的CORE四個維度[CORE是英文單詞Control（掌控感

2020-07-07 21:54:01

淘寶海量數據產品技術架構

轉自： http://blog.csdn.net/smarttony/article/details/6667944 淘寶數據魔方技術架構解析淘寶網擁有國內最具商業價值的海量數據。截至當前，每天有超過30億的店鋪、商品瀏覽記錄，

迷失的小书童

2020-07-07 20:59:04

百度筆試題，求解答

轉載於：http://blog.csdn.net/smarttony/article/details/1478600 百度筆試題，求解答一、選擇題：15分共10題 1. 在排序方法中，關鍵碼比較次數與記錄地初始排列無關的

迷失的小书童

2020-07-07 20:59:04

24小時熱門文章

最新文章

最新評論文章