原创 網絡爬蟲

網絡爬蟲(又被稱爲網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。 1、基本知識 URI :Universal Resource Identifier(通用資源標識符)的縮寫,Web 上每種可用的資源

原创 頁面排序

相關博文: Google使用pageRanking算法給搜索結果排序的原理 pr值是什麼

原创 sphinx中文索引

一.sphinx介紹與好處 sphinx簡介: sphinx是一款速度、效率非常高的中文索引技術 ;mysql索引: 主鍵、唯一、普通、全文(match/agaisnt)。 mysql本身的全文索引技術特性表現一般,一般數據庫使用全

原创 谷歌機器學習速成課程筆記 14(Introduction of Neural Network-神經網絡簡介)

仍然是郵件分類問題。 如果正負樣本是上圖那樣分佈,我們可以使用特徵交叉乘積輕鬆地對郵件分類。但是稍微複雜的分佈又要怎麼樣呢? 分佈可能很複雜,但是我們還是希望有某種方法讓模型自動學習非線性規律,而不用我們手動爲其指定參數,這種方

原创 谷歌機器學習速成課程筆記 16(Multi-Class Neural Networks-多類別神經網絡)

但是現實世界中,我們通常不僅是在兩個類別之間做選擇,有時我們需要從一系列類別中的某個類別選擇一個標籤——某個對象是動物?蔬菜?礦物質?人造物體?等等 將模型中的一個邏輯迴歸輸出節點用於每個可能的類別,比如 節點1——識別“這是蘋

原创 谷歌機器學習速成課程筆記 12(Classification-分類)

例如,如果郵件爲垃圾郵件的概率超過.8,我們可能就會將其標記爲垃圾郵件,0.8就是閾值分類。 選定分類閾值後,如何評估模型質量呢?傳統方法是看準確率——正確結果除以總數/正確結果所佔的百分比。但是準確率雖然是一種直觀且廣泛使用的指標

原创 安裝matlab彈出 DVD 1 並插入 DVD 2 以繼續的問題

我的做法是把兩個光驅全部彈出後,然後加載鏡像2 文件,最後點擊繼續,即可安裝完畢。 具體做法: 下面給出圖示: 安裝到百分之78後會提示讓彈出dvd1,我的做法是全部彈出,在雙擊dvd2鏡像文件加載,再點擊繼續安裝就好了。 圖上

原创 谷歌機器學習速成課程筆記 15(Training Neural Networks -訓練神經網絡)

在思考如何訓練神經網絡是,首先我們需要了解哪些信息是與反向傳播有關的。 (我們不需要了解反向傳播的實施方式/原理機制,因爲tensorflow 會爲我們做好) 首先,反向傳播確實依賴於梯度這個概念——事物必須是可微的(函數中存在一

原创 谷歌機器學習速成課程筆記 13(Regularization for Sparsity-稀疏性正則化)

特徵組合很實用但也有一些問題,尤其是將稀疏特徵組合起來的時候。 (接上圖)那麼我們可能會遇到數百萬個可能存在的字詞和數百萬個可能存在的視頻,這些內容一旦組合起來,便會產生大量的係數,這就意味着,模型會突然增大從而佔滿內存,還可能減緩

原创 谷歌機器學習速成課程筆記 11(Logistic Regression-邏輯迴歸)

若要預測彎曲硬幣正面朝上的概率,可以用什麼模型呢?我們可能會使用之前用過的線性迴歸,但會出現一些奇怪的情況,例如——如果我們要預測的是一枚新硬幣,且其質量前所未有的重又或者硬幣的彎曲程度非常大,會怎麼樣呢?尤其是我們將預測

原创 谷歌機器學習速成課程筆記 10(Regularization for Simplicity-簡化正則化)

之前已經討論瞭如何讓訓練損失降到最低(也就是獲取正確的樣本),今天,我們來討論且薄優質機器學習效果的第二個關鍵因素——正則化(概括而言,就是不要過於依賴樣本)。 從以下擬合曲線我們可以看出:隨着迭代次數越來越多,訓練損失會越來越少,不出

原创 2018.9-研究生-生涯準備

原文:https://blog.csdn.net/ycy0706/article/details/79229119 1、積極主動-果斷負責,創造機遇 被動的人總是習慣性任務他們現在的境況都是他人和環境造成的。主動的人應該從新開始的第一

原创 谷歌機器學習速成課程筆記 4(Reducing Loss-降低損失)

看了谷歌機器學習的視頻,受益頗多,純屬想記錄下免得以後忘了,٩(๑❛ᴗ❛๑)۶ 如何降低損失? 梯度下降法 (y-y’)∧2相對於權重和偏差的倒數可以讓我們瞭解指定樣本的損失變化情況 易於計算且爲凸形(一個碗的樣子,只有一個最低點

原创 谷歌機器學習速成課程筆記 3(Descending into ML-深入瞭解機器學習)

看了谷歌機器學習的視頻,受益頗多,純屬想記錄下免得以後忘了,٩(๑❛ᴗ❛๑)۶ 預測值與真實值 如圖: 橫座標——房屋面積 縱座標——房價 點——樣本數據(給定的x值的真實結果) 直線——y = wx+b, w爲斜率,b

原创 谷歌機器學習速成課程筆記 9(Feature Crosses-特徵組合)

仍然是郵件分類問題(分出垃圾郵件和非垃圾郵件): 一種機智的做法就是定義一個附加特徵x3