原创 深度學習word2vec筆記之基礎篇算法篇應用篇--寫的非常到位

深度學習word2vec筆記之基礎篇   聲明: 1)該博文是多位博主以及多位文檔資料的主人所無私奉獻的論文資料整理的。具體引用的資料請看參考文獻。具體的版本聲明也參考原文獻 2)本文僅供學術交流,非商用。所以每一部分具

原创 黑產:手機黑卡調查

2017-06-27 威脅獵人 計算機與網絡安全 信息安全公益宣傳,信息安全知識啓蒙。 加微信羣回覆公衆號:微信羣;QQ羣:16004488 加微信羣或QQ羣可免費索取:學習教程 他們是誰? 都是什麼卡? 誰家流

原创 Understanding HDFS Recovery Processes (Part 1)

Having a good grasp of HDFS recovery processes is important when running or moving toward production-ready Apache Hado

原创 教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神

本博文將帶領你從入門到精通爬蟲框架Scrapy,最終具備爬取任何網頁的數據的能力。本文以校花網爲例進行爬取,校花網:http://www.xiaohuar.com/,讓你體驗爬取校花的成就感。   Scrapy,Pytho

原创 Logistic Regression(邏輯迴歸)詳細講解

Logistic Regression(邏輯迴歸) 以前在學校學到Logistic Regression的時候,雖然最後會使用,但是對於許多地方有很多的疑惑,今天在這裏詳細梳理一下Logistic Regression的過程:

原创 機器學習算法之樸素貝葉斯(Naive Bayes)--第一篇

引言 先前曾經看了一篇文章,一個老外程序員寫了一些很牛的Shell腳本,包括晚下班自動給老婆發短信啊,自動衝Coffee啊,自動掃描一個DBA發來的郵件啊, 等等。於是我也想用自己所學來做一點有趣的事情。我的想法如下: 首先我寫

原创 機器學習(Machine Learning)&深度學習(Deep Learning)資料(Chapter 1

《Brief History of Machine Learning》 介紹:這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網絡、決策樹、SVM、Adaboost到隨機森林、Deep Learning. 《Deep

原创 集成學習——Bootstrap Bagging AdaBoost算法

集成學習是使用一系列學習器進行學習,並使用某種規則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。  簡單地說,就是通過抽樣等方式從原始數據集構造m個訓練集,再選擇一個弱分類器(比如決策樹)對這些訓練集進

原创 Understanding HDFS Recovery Processes (Part 2)

Having a good grasp of HDFS recovery processes is important when running or moving toward production-ready Apache Hado

原创 驗證碼對抗之路及現有驗證機制介紹

yahoo郵箱在九幾年的時候,業務深受各種郵箱機器人的困擾,存在着大量的垃圾郵件,於是他們找到了當時仍在讀大學的路易斯·馮·安(Luis von Ahn),並設計了經典的圖形驗證碼,即通過簡單的扭曲圖形文字進行機器的識別。 通過這

原创 Presto:Facebook的分佈式SQL查詢引擎

背景 Facebook是一家數據驅動的公司。 數據處理和分析是Facebook爲10億多活躍用戶開發和交付產品的核心所在。 我門擁有世界上最大的數據倉庫之一,存儲了大約 300PB 以上的數據。 這些數據被一系列不同種類的程序所使用,

原创 驗證碼的前世今生(今生篇)

看完《驗證碼的前世今生(前世篇)》也許第一感覺就是Winter is coming,互聯網的人機對抗到了最黑暗的時刻。柳暗花明又一村,最黑暗的時刻也是光明即將來臨的時刻——在傳統驗證碼的末日新的反向圖靈測試機制浴火重生。 0×1

原创 通俗理解神經網絡之激勵函數(Activation Function)

關於神經網絡激勵函數的作用,常聽到的解釋是:不使用激勵函數的話,神經網絡的每層都只是做線性變換,多層輸入疊加後也還是線性變換。因爲線性模型的表達能力不夠,激勵函數可以引入非線性因素。 其實很多時候我們更想直觀的瞭解激勵函數的是如何引入非

原创 驗證碼的前世今生(前世篇)

常在網上晃悠的人,對上面這張圖都不會陌生。特別是在註冊新賬號、確認交易時,它們都會頻繁出現,要求我們輸入正確的驗證碼,那這些看上去跟我們要做的事情完全無關的驗證碼到底有何作用呢? 0×1誕生 首先,先介紹下驗證碼程序的提出者,路

原创 十個值得一試的開源深度學習框架

本週早些時候Google開源了TensorFlow(GitHub),此舉在深度學習領域影響巨大,因爲Google在人工智能領域的研發成績斐然,有着雄厚的人才儲備,而且Google自己的Gmail和搜索引擎都在使用自行研發的深度學習工具。