台部落juranyaoyingwen

語義解析KB-QA的思路是通過對自然語言進行語義上的分析，轉化成爲一種能夠讓知識庫“看懂”的語義表示，進而通過知識庫中的知識，進行推理（Inference）查詢（Query），得出最終的答案。簡而言之，語義解析要做的事情，就是將自然語言的

2018-08-23 17:57:14

44.優化驗證實驗假設你正在做一個語音識別系統，給系統一個輸入音頻A，計算每一個句子S輸出的概率ScoreA(S)ScoreA(S) 。你需要找到句子S使得Output=argmaxScoreA(S)Output=argmaxScore

2018-08-23 17:57:14

通過問句中的主題詞可以找到它在知識庫中對應的圖節點，我們將該圖節點相鄰幾跳（hop）範圍內的節點和邊抽取出來得到一個知識庫的子圖，這個子圖作者稱爲主題圖（Topic graph），一般來說，這裏的跳數一般爲一跳或兩跳，即與主題詞對應的圖節

2018-08-23 17:57:14

36.什麼時候你應該在不同分佈上做訓練和測試當你的貓app已經上傳10000張圖，你已經人工標記它們有沒有貓，同時你有200000張互聯網上下載的圖，這時你要怎麼劃分訓練開發測試集呢？當你訓練深度學習模型時，可能必須用到那20000

2018-08-23 17:57:14

33.爲什麼我們和人類水平比較當你試圖做一項人類可以很好完成的任務時，比較容易構建機器學習系統 1.容易獲得label 2.可以由人的直覺進行錯誤分析 3.用人類水平估計最優錯誤率並設置期望錯誤率而對於一些人類都不能很好勝任的任務

2018-08-23 17:57:14

47.端到端學習的興起假設你在做一個檢測線上商品評價的系統，它能自動告訴你評論的作者是否喜歡這個商品，這個問題被稱作情感分類。爲了建立這個系統，你需要建立一個包含兩部分的“管道”： 1.Parser:標註文本信息顯示最重要的單詞。例如

2018-08-23 17:57:14

主要內容在訓練模型的時候，如果效果不如人意，這時候你可以採取很多辦法來改進模型，但是可選的方法太多，你究竟該先用哪些方法呢？Andrew Ng的這本書就是爲此而寫。Ps：開發集就是驗證集。 4. 規模驅動機器學習前進驅動深度學習進步的

2018-08-23 17:57:14

20.方差和偏差：兩大錯誤來源儘管更多的數據是無害的，但它並不如我們期望的那樣有幫助，獲取更多的數據可能是浪費時間（這裏的方差的定義是非正式的）。 21.例子這裏的方差和過擬合欠擬合無關 22.和最優錯誤率比較假設你面對的問題是即使

2018-08-23 17:57:14

首先根據問題中的主題詞在知識庫中確定候選答案。把問題和候選答案都映射到一個低維空間，得到它們的分佈式表達（Distributed Embedding），通過訓練數據對該分佈式表達進行訓練，使得問題向量和它對應的正確答案向量在低維空

2018-08-23 17:57:12

一. 正則表達式 1.1 Python re 1.1.1 regex語法推薦網站http://pythex.org/,不但有語法,還可以在線測試 1.1.2 match匹配模式 re.match(pattern,st

2018-08-23 17:57:12

知識庫可以分爲兩種類型，一種是以Freebase,Yago2爲代表的Curated KBs，它們從維基百科和WordNet等知識庫中抽取大量的實體及實體關係，可以把它們理解爲是一種結構化的維基百科，被google收購的Freebase中包

2018-08-23 17:57:12

28.診斷偏差和方差：學習曲線將期望水平添加到學習曲線中，並通過樣本數-誤差橫軸訓練集大小，縱軸error，繪製開發集誤差（將訓練誤差也添加進去） 29.繪製訓練錯誤曲線訓練集誤差隨訓練集大小增加而增加：算法很難完全適應更多的樣本

2018-08-23 17:57:12

13.快速構建第一個系統，然後迭代即使是我（吳恩達）這樣經驗豐富的人，也很難選擇一個正確的前進方向，所以不要試圖設計和構建完美的系統，而應該快速構建第一個系統，然後迭代。PS：對研究人不適用。 14.通過查看開發集樣本來評估idea 當

2018-08-23 17:57:12

Machine Translation(機器翻譯)，Information Extraction(信息提取),Text Summarization(文本歸納)，Dialogue Systems (對話系統)最基本的nlp問題叫做Taggi

2018-08-23 17:57:11