新年第一篇---算法淺談

一、前述

2020是不平凡的一年。展望2021,希望大家都能有所收穫。在此談下算法方面的工作。

二、工作類別

目前算法工作的話,第一類是數據挖掘,它包含的知識,跟機器學習相關度會更大,包含常規的數據挖掘以及推薦算法。在數據挖掘裏面,要單獨的會機器學習的特徵工程,和其它的領域的知識,比方金融公司,可能要知道一些金融公司業務方面的知識。

數據挖掘,可能有幾個附加的知識也需要知道,有的數據挖掘崗,它需要一些機器學習和大數據的組合,還有一種是機器學習的知識,加上自然語言處理的這方面。 新浪微博的數據挖掘崗,可能也需要你會一些自然語言處理方面的東西。

兩種組合,一種是傳統的數據挖掘和自然語言處理組合打包,是比較搶手的,因爲相當於是兩個方面的。另外一個就是數據挖掘和大數據方面的組合的叫大數據挖掘。還有一些數據挖掘方面的,推薦系統,它也是屬於這個種類的。

第二類就是圖像視覺方面,目前最熱的是人臉識別,還有就是目標檢測、目標追蹤。

剛纔說的這些,流行的做法是用深度學習來做。如果是做圖像視覺的話,一定要看圖像視覺方面的書,你比方說 數字圖像處理,模式識別,這兩本書得看一下,額外具備的知識。

第三類是自然語言處理,第一個是用深度學習做自然語言處理,目前最難的就是聊天機器人,還有用深度學習做實體識別的,語意相似度計算。

如果想在自然語言處理這方面很多工作都得心應手的話,你要加強自己的附加東西,比方說要會實體識別,會算法分析。

自然語言處理的崗位,第一個要求你會意圖識別,第二個是語義分析,第三個是智能智能問答,第四個是智能客服。

上面是工作涉及比較多的。還有機器翻譯,相對少一些,這些是工作的方向。

三、總結

一個是圖像視覺,一個是自然語言處理,一個是數據挖掘,你要儘快的想好去哪個領域,跟你的興趣愛好是有很大幫助的。

還有幾個比較偏一點的,語音識別是2017年的薪資最高的,應屆生的話,碩士以上的學歷,出來就是27K到30K,這個是boss直聘上統計出來的。2017年它是最火的,2018年它也不會少多少,有一個領域知識,肯定比泛泛的只會機器學習、會深度學習,沒有領域強項的要有競爭力。

所以要儘快的不斷地要把機器學習、深度學習要學好,儘快的把你的領域方向定下來,然後把這個領域上面欠缺的東西,用業餘時間把它加強,把它做完整。

語音識別、語音合成,可能需要掌握的知識就是數字信號處理,還有信號與系統這兩個東西。

當然還有一個領域考研招的人更少,那就是智能機器人以及無人駕駛,無人駕駛汽車、無人駕駛飛機,它涉及到的算法是強化學習,後兩個不建議去找,一開始就找後面兩個的話,難度會很大,並不是說它的知識比別人難,最主要是這個崗位要少一些,意味着機會就少。

我建議是前面三個,數據挖掘崗,自然語言處理崗,圖像視覺崗。

四、具體入門工具

數據挖掘崗在我們的學習體系裏面,主要涉及機器學習方面東西要多一些,尤其是特徵工程, 80%的時間在公司裏面,在做特徵工程的一些東西。

圖像視覺需要的知識,主要是深度學習,現在基本上就不太會用傳統的機器學習或其它別的算法。

自然語言處理,一半對一半,深度學習來處理自然語言處理佔了一部分,它是最先進也最難的。還有一部分是基於傳統的規則的基於語法分析,然後做自然語言處理方面的東西,佔了很大一部分。

若做圖像視覺用到的工具是OpenCV可能要比較掌握的熟練,其次就是tensorflow,在tensorflow掌握得很好的情況下,可以再考慮用caffe,如果tensorflow還掌握的不熟練,建議使用tensorflow,它有這種趨勢,把其它別的深度學習框架全部覆蓋掉,以及目前應用較多的pytorch

自然語言處理領域,jieba主要是用來做分詞的,第二是nltk能做分詞,還能做詞性標註,還能做實體識別以及語義分析,句子結構分析。

目前跟傳統的自然語言處理以及深度學習半結合的叫做gensim。這個是過渡階段的,既有傳統的又有深度學習的。還有一個就是tensorflow最難的,傾向於機器學習叫做spark mlib,最大的不同是它用集羣做的。

這些掌握了,基本上工具方面就全部包含了。

五、算法入門系列課程

 https://edu.csdn.net/lecturer/3959

可以幫助你快速入門基礎算法。15節大白話算法 ,後續會持續更新。以通俗生動的方式講解人工智能前沿算法。願景是打造全網AI最通俗教學,贈人玫瑰,手有餘香,在人工智能前行的路上一起前行,以通俗簡潔詳細的方式,讓每一位熱愛着深入其中。空間有形、夢想無限!加油!

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章