原创 數據結構與算法(序)

博主在學習數據結構與算法時,參考的國內教材是裘宗燕老師的《數據結構與算法 python語言描述》,所以這系列的文章作爲該書的學習筆記,將按照這本書的寫作順序,對其中重要的點摘寫出來共同學習。

原创 數據結構與算法(緒論)

作爲一個準程序員,在讀本科的時候,就一直被老師不停的灌輸數據機構與算法的重要性,但是好像我們從來就沒遇到過真正棘手的需要通過數據結構去解決的問題,可能唯一再聽到它的時候就是找工作實習的時候會被面試官提問,因此我們似乎覺得數據結構沒那麼重要

原创 PCA原理分析

無監督學習:數據沒有附帶任何標籤,也即無監督學習的目標是找到數據的某種內在結構。 降維:將數據從高維空間降低到低維,降維可見的優勢包括:1、使得數據更容易使用;2、降低很多算法的計算開銷;3、去除噪聲(下面結合PCA再解釋);4

原创 數據結構與算法(單鏈表)

回憶線性表的定義,它就是一些元素的序列,維持着元素之間的一種線性關係。實現線性表的基本需要是: 1、能夠找到表中的首元素; 2、從表裏的任一元素出發,可以找到它的下一個元素。 在上一篇中,把表元素保存在連續的存儲區裏(順序表),自然可以滿

原创 線性迴歸的欠擬合、過擬合問題總結

針對最近在《機器學習實戰》的線性迴歸中遇到的問題,做一個學習小結。 一、欠擬合 局部加權線性迴歸(LWLR): 1、在線性迴歸發生欠擬合的時候,在估計中引入一些偏差,降低預測的均方誤差。 2、我們給待預測的點附近的點一定的權重,而使得遠

原创 機器學習-分類和邏輯迴歸

這裏用到的數據是Andrew老師在coursera授課時作業中的數據,由於上傳過程中公式格式有點亂,因此省掉了原理部分,具體的可以看Andrew老師的授課視頻和講義。 兩分類問題,特徵值爲學生的兩門課考試成績,y值0、1決定學生是否被學

原创 數據結構與算法(線性表)

在程序中,經常需要將一組(通常是同爲某個類型的)數據元素作爲整體管理和使用,需要創建這種元素組,用變量記錄它們,傳入傳出函數等。線性表就是這樣一組元素(的序列)的抽象。一個線性表是某類元素的一個集合,還記錄着元素之間的一種順序關係。 線性

原创 NLP最新進展之ELMo

文章目錄詞向量發展NNLMWord2vec 和 GloveELMoELMo原理ELMo模型word embedding 和 word_char_embeddinghighway NetworkELMo源碼ELMo應用   說是NLP最

原创 深度學習相關總結

博客來源於本人在深度學習中的知識點總結,基於本人學習進度不定期更新。 1、爲什麼相比於RNN,LSTM在梯度消失上表現更好? Reference: 1. http://blog.csdn.net/a635661820/article/

原创 人機對話系統調研

  隨着人工智能的發展,人機對話系統在智能家居、智能助理等領域得到長足的發展。從前年開始,大量的智能音箱(天貓精靈,小米智能音箱等)開始出現在To C端,很多互聯網公司將其視作新的入口不斷佈局,而在To B端,阿里小蜜、網易七魚、微軟的A

原创 淺析文本相似度

  在自然語言處理(Natural Language Processing, NLP)中,經常會涉及到如何度量兩個文本的相似度問題。在諸如對話系統(Dialog system)和信息檢索(Information retrieval)等的問

原创 數據結構之鏈表實現

  本文基於Leetcode上Top Interview Questions、Top 100 Liked Questions中的鏈表部分和劍指offer上的鏈表算法題進行總結,同時大家也可以參考這篇博客,整理的很不錯。 1.

原创 從Machine Translation 到Sequence to Sequence(Seq2seq)、Attention、Pointer Network(prt network)

  本文基於cs224n課程的Machine Translation部分和Michael Collins NLP的Machine Translation部分。從Tranditional MT介紹到SMT(statistical Machi

原创 2018-暑期實習生-自然語言處理算法崗-面試題

  隨着三月初螞蟻金服內推開啓,整個暑期實習生招聘大幕也正式打開,這一場從三月初持續到之後五月的筆試面試過程,確實讓筆者真真切切的感受到基礎的重要性,面試和筆試不僅從機器學習,自然語言處理,數據結構與算法,高數概率論等方面考察,還包括智力

原创 深度學習優化算法總結

  本文基於目前深度學習中使用較多的優化學習算法進行總結。 1 深度學習中的優化算法   優化算法之前討論兩個問題:   (1) 局部最小值問題   在深度學習中,最優化問題其實並不容易困在局部最小值點。在高維度空間時(如20000維