深交所實習的日子

說說最近的學習吧!
目前在深交所實習了3個多月了,感受到了一個金融公司的龐大,和寶哥(導師)也學習到了很多的東西,也臨時去其他公司學習了一次,感受頗深。當然也體會到了金融公司的寬鬆的工作氛圍和人性化的工作時間,這裏相比軟件IT公司的確不失爲一個養生之地。
在這三個月裏,我首先跟着一個哈工大深圳研究院的一個學長做了一個公告分類項目,具體說就是把拓爾思數據公司送來的公告數據進行分類,判斷是股票相關還是不相關。我們先後將公告分句,人工標註爲股票相關還是不相關,然後提取相關特徵,再用SVM、決策樹、邏輯迴歸、隨機森林等分類器進行分類,最後效果能達到百分之九十幾,還不錯,除了一些的確很難判別的容易歧義的公告,例如三棵樹、熊博士等等。這是我學習的東西比較多的一個項目,特別是特徵提取,這裏要感謝我的學長,聽說他已經拿到深交所offer,真讓人羨慕不已。
在這三個月裏我先後學習了一下東西:
- 看完了周志華《機器學習》,對機器學習有一個初步的瞭解,不過我覺得部分地方數學太深,不易懂,缺少實踐,但是作爲打開我機器學習之路的啓蒙書,真的非常推薦,周老師也是我很崇拜的一個人。
- 看完了《信息檢索實戰:搜索引擎》,對搜索引擎有了一個初步的瞭解,不過還需要在實踐中加以理解運用,目前想學一個開源搜索引擎。
- 看完了《統計自然語言處理基礎》,瞭解了自然語言處理領域的一些基本概念和問題,特別是經典的n-gram語言模型,也瞭解了前人怎麼處理這些基本的自然語言處理任務的。這是我進入自然語言處理領域的啓蒙書,強烈推薦,不過初讀時,有些地方不太好理解比如馬爾科夫鏈那塊有點難,我覺得如果看書的同時寫點相關算法代碼可能會有助於理解。另外這個書也有個缺點,部分思路方法泛泛而談,然後就讓你去看論文,很煩!
- 看完了Stanford Manning的NLP基礎公開課,主要看的是ppt,不懂得再在Youtub上看,這個是站在一個很基礎的角度來講解NLP,從基本的文本處理、語言模型、信息抽取、最大熵模型、詞法、語法分析到情感分析、問答等,這個讓我在一個大的層面上認識了NLP,確實是一個很好的課程,很基礎。不過我覺得,來電實際項目或者任務能更好的加深理解。
- 學完了有名的在線電子書《Neural networks and deep learning》,這本書爲我解開了深度學習的神祕面紗,這是我迄今爲止見過的將理論和實際結合的最好的一本書,不僅詳細的講解了神經網絡的相關理論知識,還使用python針對手寫數字識別任務做了一個很好地實現,而且還教我們怎麼去調神經網絡的參數,這個是經驗但很重要。這個作爲深度學習的入門書籍我覺得是非常好的,理論與實踐同時教授,更有助於理解。美中不足的是隻講解了深度學習最基礎的一部分,講了一些CNN,如果再講一些AutoEncoders 、RBM、DBN、RNN就更好了。
- 學完了《Theano tutorial》,這個主要是用Theano 來實現一些基本的神經網絡,還順便講解了一些深度學習相關的一些理論知識,針對手寫數字識別任務,tutorials還推薦了很多相關資料,很不錯的一個教程,讓我瞭解了rbm、autoencoders 、gibbs sampling、cnn、rnn、 dbn等等。
- Standford cs224n 看了前幾章,個人覺得不適合初學者,而且課上講的其實也不是很多,不如看論文!不過學完了NLP、DL的內容再來看這個會容易一些,後面有時間還是準備看完這個經典課程的。

學的東西不算少,不過很多還需要消化,希望通過具體的項目來消化所學的東西。
這段時間一直在忙着確定畢設題目,目前大致確定爲金融知識圖譜,我和導師商量了下,最後決定做基於金融領域知識圖譜的智能問答系統。這個得找找相關論文、期刊、報告等再具體確定。


                       2017年11月9日 晚10:52
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章