原创 Structuring Machine Learning Projects - 第一週

Introduction to ML strategy 在這一節主要介紹了爲什麼需要ML strategy以及什麼是orthoganization。當我們進行ML調優的時候有非常多的可選項,比如改變Regularization係數,增加數據

原创 Adam算法和Learning rate decay

Adam算法 Adam算法可以加快深度神經網絡的訓練的速度,它實際上是結合了exponentially weighted average算法和RMSprop算法,實際訓練過程如下圖所示: 通常情況下,需要對如下超參進行調整: 通常情況

原创 指數加權平均值以及相關算法-exponentially weighted average and momentum

exponentially weighted average Vi = Vi-1beta - (1-beta)Ti 越早的數據其所佔的權重越小,從下圖右上角的小圖可以看出其每天對應的值(上圖)與指數曲線對應的值(下圖)進行相乘,所以越靠前的

原创 Python定時任務-schedule vs. Celery vs. APScheduler

在Python開發過程中我們經常需要執行定時任務,而此類任務我們通常有如下選項: 自己造輪子 使用schedule庫 使用Celery定時任務 使用APScheduler 自己造輪子實現,最大的優勢就是靈活性,調試方便,對於某些特定系統

原创 史上最詳解Python日期和時間處理(下)

此下篇主要講解跟時區相關的概念和程序中經常使用的場景,希望通過此文大家可以搞定所有時區相關的編程問題(如果還有不明白的地方,請聯繫我,我將進一步補充)。 本文的目錄結構如下: 時區基本概念 時區 GMT和UTC 時區偏移(Offset

原创 吳恩達機器學習Coursera-week11

Photo OCR 在此章的課程中,Andrew主要是想通過OCR問題的解決來闡釋在實際項目中我們應該如何定義問題,並將一個大問題分解爲多個小問題,並通過pipeline的方式將對這些小問題的解決方案串聯起來,從而解決這個大問題。我認爲這是

原创 史上最詳解Python日期和時間處理(上)

好吧,我承認這有標題黨的嫌疑,不過看了那麼多文章,的確沒有找到一篇讓我滿意的關於日期和時間處理的詳解文章,於是決心自己動手親寫一篇,希望能對得起這個霸氣的標題。言歸正傳,在Python編程中,日期和時間處理是非常繁瑣的一塊,不僅概念衆多,且

原创 Redis數據類型和常用命令

Redis相較於其它的數據庫雖然簡單,但是要熟記所有命令的用法也並非易事。一個簡單的技巧是通過要操作的數據類型來將這些命令進行結構化。 數據類型和對應命令 所有存儲於redis中的數據都對應於一個鍵值對(key-value pair), k

原创 Pandas系列6-DataFrame的分組與聚合

在對數據進行處理的時候,分組與聚合是非常常用的操作。在Pandas中此類操作主要是通過groupby函數來完成的。 先看一個實際的例子: # 生成一個原始的DataFrame In [70]: raw_data = {'regiment':

原创 cost function and loss function

在機器學習領域我們經常會遇到cost function和loss function(也叫error function),而這兩個function實際是有區別的。loss function通常用於衡量單個樣本其預測值和實際值的“差距”,而co

原创 Pandas系列4-數據矢量化

問題 我們在處理數據問題時,經常會遇到的問題是要將原有數據進行轉化,比如在原有數據的基礎上+1操作,或者將原有數據的字符串全部轉化爲小寫字符,更復雜的是要將原有數據的一部分提取出來使用。這些問題都是數據轉化問題,即原有的數據不能直接使用,而