我的大學時代

這篇文章想寫很久了,起因是工作幾年後的一次閒聊,和同事談起了自己的大學生活。回憶間,一方面驚訝於當年那些爛熟於心的技術和術語突然變得那麼陌生,一方面也感慨現在的工作方向早已漸漸遠離了最初的跑道。雖然不後悔自己的選擇,也會在新的道路上奮鬥前行,不過過去的經歷終將是伴隨一生的財富。

 

紀念•我的大學時代

 

我的整個大學生涯,都是在帝都東五環的中國傳媒大學度過的。首先解答最常被問到的一個問題:爲啥會選擇讀傳媒大學的計算機系?因爲分數不夠唄!本來是想考新聞學和編輯出版學的,無奈分數不夠,就被調劑到傳媒大學“分數線最低、就業率最高”的這個專業了。這種錄取線和就業率的反差正是傳媒業的現狀,專業再好,市場需求不夠,支撐他們繼續留在這個行業的,也只能是夢想了。所以,也許應該慶幸,我沒有走上父親的老路,做我其實並不太擅長的傳媒專業。至少現在回想起來,我被動選擇了一條適合我的路。

多說一句母校,傳媒大學,是一個給人充分自由的地方,誠然她的部分專業並非全國前列,但是,沒有一個傳媒人會嫌棄她的不好,因爲,我們在這裏收穫的,是面對無限可能的世界,看到無限可能的自己。

既然定位成技術貼,還是儘量回憶些學術相關的內容吧。

本科四年,我的主要研究方向是數據挖掘。一切都要從我參與的第二個大學生實驗項目開始說起。每一條印象深刻的道路,一定是因爲你摔過跤、迷過路。這個致力於網絡敏感信息過濾的項目,第一次申請立項時,就被拒了。不是因爲項目選題不好,而是我們兩個愣頭青準備的實在是不充分,答辯時,我們自己都還沒弄清楚這項目是要做個什麼,更別說怎麼做了。幸運的事,我們的導師,尚文倩老師,一直支持着我們,給了我們很多意見和建議,也爲了我日後繼續走數據挖掘方向奠定了基礎。半年後的第二次答辯,我們毫無懸念地通過了評審,這個課題我們也一直研究了下去,作爲我本科的小論文和畢業設計。

網絡敏感信息過濾,算是有點官方背景的項目吧,具體分到我們頭上的,是網絡數據爬取和文本分類兩塊。好友劉鴻嘉(阿猴,目前立志成爲一名獨立攝影師的前程序猿)主要負責網絡爬蟲,我主要負責文本分類。所以可以說,我的本科生活,就是天天跟KNN、bayes等分類算法打交道,整天研究如何提高敏感信息識別的準確度。最初接觸文本分類,用到的一個工具叫weka,也算是爲我開啓了數據挖掘領域的認知大門。做數據挖掘,java當然是最佳語言,雖然有各種類似lucene的工具庫,但是後期涉及到算法的優化,所以只能是自己實現各類算法。系統最後的效果還是不錯的,識別的精度都有95%以上,從效率的角度,bayes則比KNN好太多。我的小論文也從KNN性能優化的角度入手,闡述了提高計算效率的一種優化思路,感謝範文和董韜兩位師兄,在項目實驗和論文編寫上都給了我很大的幫助。

大四順利的保研了,也開啓了我的預研究生活,從那一年起,我的學術方向開始有了分支,並在很長的一段時間裏,讓我糾結和迷惑。

 

未完待續...

回龍觀創客廣場B座三聯書店

2017.2.26 18點

 

 

-----------------------------------------

2017.2.27 更新

研究生四年(大四就進實驗室了),我的研究方向是分佈式存儲,這是一個偏系統底層,且常常和硬件打交道的方向。選擇的原因有些慚愧,保研成功後選方向前,朱立谷副院長(我後來的研究生導師)請我們吃了頓飯,聊了聊自己的想法,其實雖然做了2年的數據挖掘,但是當時自己對未來的工作方向並沒有清晰的認識,也從未認真思考過這個問題,一直以來,我就是一個老師教什麼,就學什麼的“好”學生。然後就在朱老師勾勒的美好前景中,迷迷糊糊的選擇分佈式存儲這個方向。事後回想,要是當時就能有明確的職業規劃該有多好啊,但是,在我們最年輕最想探索各種可能性的年紀,要想能迅速找準自己的定位,其實本身就有些悖論的成份。我不知道如果當時選擇了數據挖掘方向的我現在會身在何方,也完全給不了現在正經歷這個選擇的年輕人意見,只能說,只要選定了,就從中儘可能的汲取營養,強大自己吧。所以,直到現在,我並不後悔選擇了這個自己從未真正喜歡上的存儲方向。因爲研究生四年收穫的,遠不止專業技術,還有方法,還有態度,還有人。

總的來說,在存儲實驗室(->實驗室官網點這裏<-)這四年我學到的東西,是真真切切在日後的工作生活中都起到關鍵作用的,所以能夠跟隨朱立谷導師,進到這個大家庭裏,已經很知足。

大四的預研究生活,相對來說是清閒的,沒有課,沒有找工作的壓力,導師給我們充分自由的學習空間,這一年,我學會了前端開發,這是一個大家看似簡單不屑,但實則在日後工作甚至生活中最常會有用武之地的技能。不管你將來是否是做前端開發,能熟悉jquery,瞭解前後臺通信機制,掌握一套前端開發框架,都對日後的整體系統架構設計起到幫助作用。研究生時期,我們實驗室主要用到的框架是CodeIgniter,基於PHP,並且支持MVC架構,輕量級,特別適合PHP爲後臺的網站開發。

研一的生活就相對忙多了,課業繁重不說,實驗室也開始分配分配具體的工作。這一年,Linux系統開始進入我的生活,老實說,用慣了Windows,要熟悉Linux操作體系,還真不容易。首先要熟悉的是命令行界面、各類基礎命令、Linux的文件系統結構、編譯各類源碼包,在此基礎上,還要深入瞭解一下Linux系統的整個啓動加載流程,到此,算是會使用Linux系統了。一旦當你習慣了Linux生態體系,就會對它的高效、開放愛不釋手。在Linux學習初期一定要提到一本書《鳥哥的Linux私房菜》,通俗易懂,應該也是很多人的Linux入門讀本吧。既然做分佈式存儲,自然會跟各種存儲硬件打交道,整個研究生期間,我不是在實驗室開發系統,就是待在機房拼裝機器。那段時間,一個人“靜靜地”待在機房,享受着滿機櫃服務器的嗡鳴聲,倒騰主板,編譯文件,也真是以後都難有的體驗了。

到了研二,成了實驗室開發的主力,我們實驗室分爲硬件組和軟件組,軟件組主要是負責私有云服務平臺(PCS雲存儲服務平臺)的研發,而我所在的是硬件組,主要負責私有云硬件定製和網絡存儲監控系統(MPX多協議網絡存儲平臺)的研發。關於MPX,確實有太多記憶,可以說MPX就是我整個研究生所學的知識架構投影,就讓我叫它,M老師吧。

 

未完待續...

金唐國際金融大廈

2017.2.27 13點

 

 

-----------------------------------------

2017.3.1 更新

MPX總的來講是一套定製化磁盤陣列服務器上搭載存儲服務管理系統的完整解決方案,並從硬件選型到Linux內核精簡上都做了深入優化。研究生期間,這套解決方案成功應用於首師大、物資學院、中國電子科技集團公司第十五研究所等合作單位中。

硬件上,MPX初期也就是單臺3U或2U、16或8盤位的磁盤陣列服務器,主板就是常規的x86主板,接口也未做擴展。中期,嘗試過基於4盤位小NAS服務器的家庭私有云解決方案,以及基於ARM主板的微型存儲服務器解決方案,不過這兩個方案並未大規模推廣。後期,我們能同時支持SAS和SATA硬盤,利用JBOD級聯技術,我們的磁盤陣列服務器突破單臺限制,並在提供的硬件接口上更加豐富,同時,利用heartbeat+DRBD技術做到了服務的高可用。

 

-----------------------------------------

2017.10.20 更新

軟件(服務)

MPX軟件層面,主要提供軟件級RAID服務、基於塊級的SAN存儲和基於文件級的NAS存儲服務,並且以多步表單的形式引導管理員進行相應配置管理,最大化的降低了管理員的專業要求。其中SAN存儲又支持iSCSI和FC兩種協議,NAS存儲又支持NFS和CIFS兩種協議。實際上,MPX管理系統所有操作都是對底層Linux 相關命令的可視化封裝,所以基於這一點,MPX系統甚至不需要後臺數據庫,即可實時查詢到需要的數據信息。

此外,MPX還提供了基於LDAP的用戶管理功能,服務重啓功能,磁盤狀態檢測功能,以及一鍵恢復功能等等。

高可用

針對MPX的高可用能力,首先利用了heartbeat+DRBD技術做到了磁盤陣列的網絡失效檢測與實時熱備,此外,還通過重置系統中所有配置文件(例如smb.conf、ldap.conf等)並重啓的方式,實現了系統的一鍵恢復功能。

 

以上都是對MPX系統的回顧,即使畢業三年,依然感觸頗深。

 

研三,都是圍繞着論文和實習轉。我的畢業論文是基於copy-on-write的Btrfs文件系統優化,老實說比較水,就不多贅述了。倒是研三在360的實習,雖然只有短短的半年,不過經過數據挖掘領域的實戰,相關技能有了顯著的提高。實習期間我主要負責垃圾短信的識別與數據分析,過程中爲360編寫了一款垃圾短信半自動化標註小軟件,後期在實習生領域得到了廣泛推廣,大大提高了同事的工作效率。而垃圾短信的智能識別,主要是依靠範文師哥的文本分類算法,分類效果相對較好的有其改進後的Bayes算法,但客觀來說,數據分析的精度並不理想。而我的工作,更多的是每週定期的分析報表,出統計週報。半年後的離開,倒不是因爲不喜歡360或者數據挖掘這個方向,實際上這一領域有着巨大的發展前景。但同時我也深刻體會到,要想學好數據挖掘並真正應用到實際工作中,第一,數學得非常好,算法即數學;第二,編碼能力和設計模式也得強,不然即使有好算法,面對大數據有效時間內根本跑不完。總之,基礎得好,非一日之功,初期最好能有大牛帶,後期有團隊和同伴相互協作,不然一個人研究會非常痛苦且難於出成績。懷念360的點滴。

 

好了,回顧就到這吧,未來還在繼續,keep learning

 

我的大學時代 完

金唐國際金融大廈

2017.10.20 17點17分

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章