原创 數學之美3 - 線代篇

線代篇 向量空間模型 文本檢索 文本聚類 矩陣 線性迴歸 PCA主成分分析 奇異值分解 33 | 線性代數:線性代數到底都講了些什麼? 向量和向量空間 標量(Scalar)。它只是一個單獨的數字,而且不能表示方向。從計

原创 數學之美1 - 離散篇

離散篇 程序員的數學基礎課 二進制 餘數 迭代法 歸納法 遞歸 排列 & 組合 動態規劃 DPS & BFS 圖 時間複雜度 & 空間複雜度 反碼 & 補碼 位操作 開篇詞 | 作爲程序員,爲什麼你應該學好數學? 數學它

原创 數學之美2 - 概率篇

概率篇 樸素貝葉斯 文本分類 語言模型 馬爾科夫模型 決策樹 A/B 測試 19 | 概率和統計:編程爲什麼需要概率和統計? 概率和統計裏有哪些需要掌握的概念? 隨機變量(Random Variable)來描述事件所有

原创 機器學習算法02 - 決策樹

決策樹 ID3 & C4.5 & CART 機器學習基本算法之一的決策樹的基本原理,其要點如下: 決策樹是包含根節點、內部節點和葉節點的樹結構,通過判定不同屬性的特徵來解決分類問題; 決策樹的學習過程包括特徵選擇、決

原创 數據挖掘算法02 - C4.5

C4.5 決策樹學習通常包括三個步驟 特徵選擇。選取最優特徵來劃分特徵空間,用信息增益或者信息增益比來選擇 決策樹的生成。ID3、C4.5、CART 剪枝 什麼是信息熵? 隨機變量 x 概率 P(x) 表示 x

原创 CPP語言開發基礎知識

目錄 1、面向對象... 1 2、命名空間 - 避免類名衝突... 1 3、類的繼承 – 可以直接訪問父類定義的方法... 1 4、構造方法和析構方法... 1 5、執行父類的構造方法... 1 6、執行父類的方法... 2 7、實函數、

原创 數據挖掘算法07 - K-Means

K-Means 什麼是向量空間? 首先假設有一個數的集合 F,它滿足“F 中任意兩個數的加減乘除法(除數不爲零)的結果仍然在這個 F 中”,我們就可以稱 F 爲一個“域”。我們處理的數據通常都是實數,所以這裏我只考慮實數域。而

原创 機器學習算法03 - 線性迴歸

線性迴歸 機器學習基本算法之一的線性迴歸的基本原理,其要點如下: 線性迴歸假設輸出變量是若干輸入變量的線性組合,並根據這一關係求解線性組合中的最優係數; 最小二乘法可用於解決單變量線性迴歸問題,當誤差函數服從正態分佈時,它與

原创 數據挖掘算法05 - KNN

KNN KNN 的英文叫 K-Nearest Neighbor,應該算是數據挖掘算法中最簡單的一種。 KNN 的工作原理 近朱者赤,近墨者黑可以說是 KNN 的工作原理。整個計算過程分爲三步: 計算待分類物體與其他物體之間的

原创 JavaScript教程8 - jQuery

jQuery jQuery這麼流行,肯定是因爲它解決了一些很重要的問題。實際上,jQuery能幫我們幹這些事情: 消除瀏覽器差異:你不需要自己寫冗長的代碼來針對不同的瀏覽器來綁定事件,編寫AJAX等代碼; 簡潔的操作DOM的方法

原创 數據分析4 - 實戰篇

數據分析實戰4.實戰篇 37丨數據採集實戰:如何自動化運營微博? 目標 掌握 Selenium 自動化測試工具,以及元素定位的方法; 學會編寫微博自動化功能模塊:加關注,寫評論,發微博; 對微博自動化做自我總結。 Se

原创 數據分析5 - 拓展篇

數據分析實戰5.拓展篇 42丨當我們談深度學習的時候,我們都在談什麼? 目標 在這篇文章中,我們會通過以下幾個方面瞭解深度學習: 數據挖掘、機器學習和深度學習的區別是什麼?這些概念都代表什麼? 我們通過深度學習讓機器具備人

原创 算法實戰.搜索引擎

搜索引擎 整體系統介紹 搜索引擎大致可以分爲四個部分:蒐集、分析、索引、查詢。 蒐集,就是我們常說的利用爬蟲爬取網頁。 分析,主要負責網頁內容抽取、分詞,構建臨時索引,計算 PageRank 值這幾部分工作。 索引,主要負責

原创 機器學習算法01 - 樸素貝葉斯

樸素貝葉斯 樸素貝葉斯分類 機器學習基本算法之一的樸素貝葉斯方法的基本原理,其要點如下: 樸素貝葉斯方法利用後驗概率選擇最佳分類,後驗概率可以通過貝葉斯定理求解; 樸素貝葉斯方法假定所有屬性相互獨立,基於這一假設將類

原创 數據挖掘算法10 - PageRank

PageRank PageRank 的簡化模型 假設一共有 4 個網頁 A、B、C、D。它們之間的鏈接信息如圖所示: 出鏈指的是鏈接出去的鏈接。入鏈指的是鏈接進來的鏈接。比如圖中 A 有 2 個入鏈,3 個出鏈。 簡單來說,