昨天就發佈了,看的人挺多,自己看了一下發現直接放整理有點莫名其妙,先把招聘條件整體圖片放上來吧,會持續更新。
- 計算機或數學相關專業,碩士及以上學歷
- 熟悉自然語言處理領域基礎理論和常用方法
- 基礎理論
- 自然語言理解(NLU):NLU 是要理解給定文本的含義,文本內每個單詞的特性與結構需要被理解。在理解結構的基礎上,NLU 要理解自然語言中的以下幾個歧義性:
- 詞法歧義性:單詞有多重含義
- 句法歧義性:語句有多重解析樹
- 語義歧義性:句子有多重含義
- 回指歧義性(Anaphoric Ambiguity):之前提到的短語或單詞在後面句子中有不同的含義。
- 自然語言生成(NLG):NLG 是從結構化數據中以可讀地方式自動生成文本的過程,難以處理是自然語言生成的主要問題。自然語言生成可被分爲三個階段:
- 文本規劃:完成結構化數據中基礎內容的規劃。
- 語句規劃:從結構化數據中組合語句,來表達信息流。
- 實現:產生語法通順的語句來表達文本。
- 聊天機器人:能通過聊天 app、聊天窗口或語音喚醒 app 進行交流的計算機程序。
- 特點:成本低、高效且持續工作
- 圖靈測試:如果一個人(代號C)使用測試對象皆理解的語言去詢問兩個他不能看見的對象任意一串問題。對象爲:一個是正常思維的人(代號B)、一個是機器(代號A)。如果經過若干詢問以後,C不能得出實質的區別來分辨A與B的不同,則此機器A通過圖靈測試。
- 自然語言理解(NLU):NLU 是要理解給定文本的含義,文本內每個單詞的特性與結構需要被理解。在理解結構的基礎上,NLU 要理解自然語言中的以下幾個歧義性:
- 常用方法
- 基於規則
- 基於深度學習
- 神經網絡
- 詞性標記
- 詞語切分
- 實體命名識別
- 目的提取
- 循環神經網絡
- 機器翻譯
- 問答系統
- 圖像描述
- 遞歸神經網絡
- 句子解析
- 情感分析
- 釋義檢測
- 關係分類
- 物體識別
- 卷積神經網絡
- 句子/文本分類
- 關心提取和分類
- 垃圾郵件檢測
- 搜索詞條的歸類
- 語義關係提取
- 神經網絡
- NLP步驟
- 基礎理論
-
-
-
- 語句分割 - 在給定文本中辨識語句邊界,即一個語句的結束和另一個語句的開始。語句通常以標點符號「.」結束。
- 標記化 - 辨識不同的詞、數字及其他標點符號。
- 詞幹提取 - 將一個詞還原爲詞幹。
- 詞性標註 - 標出語句中每一個詞的詞性,比如名詞或副詞。
- 語法分析 - 將給定文本的部分按類劃分。
- 命名實體識別 - 找出給定文本中的人物、地點、時間等。
- 指代消解 - 根據一個語
-
-
-
-
-
- 句的前句和後句界定該句中給定詞之間的關係。
-
-
- 在以下多個NLP領域有深入研究:分詞、語義分析、詞性分析、意圖識別、知識圖譜、文本內容理解、對話管理等
- 熟練掌握Java、Python、scala等語言中的至少一種,有Tensorflow、Spark、Hive等實際工作經驗
- Java
- 基礎語法
- 前端
- 數據庫
- 正則表達式
- Java
- 紮實的編程能力,熟悉計算機的基礎理論,對數據結構和算法設計有深刻的理解
- 有限狀態自動機(finite-state automaton,簡稱FSA):正則表達式是描述有限狀態自動機的一種方法,有限狀態自動機是計算工作的理論基礎。
- baa+!的FSA和匹配的狀態轉移表
- 有限狀態自動機(finite-state automaton,簡稱FSA):正則表達式是描述有限狀態自動機的一種方法,有限狀態自動機是計算工作的理論基礎。
-
-
- FSA的五個參數
- Q:N種狀態q0,q1...,qn的有限集合
- Σ:有限的輸入符號字母表
- q0:初始狀態
- F:終極狀態的集合,F∈Q
- δ(q, i):狀態之間的轉移函數或轉移矩陣。給定一個狀態q∈Q和一個輸入符號i∈Σ,δ(q, i)返回一個新的狀態q‘∈Q,因此,δ(q, i)是從Q×Σ到Q的一個關係。
- FSA的五個參數
- 非確定的有限自動機(non-deterministicFSA或NFSA)
- 和FSA的唯一區別:自返圈在狀態2,難以判斷是沿着自返圈回到2還是繼續往前進入狀態3。
- 對比圖:
-
-
-
- 解決方法:
- 回退:每當我們走到這樣的選擇點時,我們可以做一個記號(marker),記錄下在輸入中的什麼位置以及自動機處於什麼狀態。當確認我們確實是做了錯誤的選擇時,可以退回去並試探其他的路徑。
- 前瞻:我們可以在輸入中向前看,以幫助判定應該選擇哪一條路徑。
- 並行:每當我們走到選擇點時,我們可以並行的查找每一條不同的路徑。
- 解決方法:
-
-
- 隱馬爾可夫模型