原创 基於知識圖譜的問答系統(二): 語義解析

語義解析KB-QA的思路是通過對自然語言進行語義上的分析,轉化成爲一種能夠讓知識庫“看懂”的語義表示,進而通過知識庫中的知識,進行推理(Inference)查詢(Query),得出最終的答案。簡而言之,語義解析要做的事情,就是將自然語言的

原创 Machine Learning Yearning 44-46閱讀筆記:調試推理算法

44.優化驗證實驗 假設你正在做一個語音識別系統,給系統一個輸入音頻A,計算每一個句子S輸出的概率ScoreA(S)ScoreA(S) 。你需要找到句子S使得Output=argmaxScoreA(S)Output=argmaxScore

原创 基於知識圖譜的問答系統(三): 信息抽取

通過問句中的主題詞可以找到它在知識庫中對應的圖節點,我們將該圖節點相鄰幾跳(hop)範圍內的節點和邊抽取出來得到一個知識庫的子圖,這個子圖作者稱爲主題圖(Topic graph),一般來說,這裏的跳數一般爲一跳或兩跳,即與主題詞對應的圖節

原创 Machine Learning Yearning 36-43閱讀筆記:訓練測試集分佈不同

36.什麼時候你應該在不同分佈上做訓練和測試 當你的貓app已經上傳10000張圖,你已經人工標記它們有沒有貓,同時你有200000張互聯網上下載的圖,這時你要怎麼劃分訓練開發測試集呢? 當你訓練深度學習模型時,可能必須用到那20000

原创 Machine Learning Yearning 33-35 閱讀筆記:和人類水平進行比較

33.爲什麼我們和人類水平比較 當你試圖做一項人類可以很好完成的任務時,比較容易構建機器學習系統 1.容易獲得label 2.可以由人的直覺進行錯誤分析 3.用人類水平估計最優錯誤率並設置期望錯誤率 而對於一些人類都不能很好勝任的任務

原创 Machine Learning Yearning47-52閱讀筆記:端到端的深度學習

47.端到端學習的興起 假設你在做一個檢測線上商品評價的系統,它能自動告訴你評論的作者是否喜歡這個商品,這個問題被稱作情感分類。爲了建立這個系統,你需要建立一個包含兩部分的“管道”: 1.Parser:標註文本信息顯示最重要的單詞。例如

原创 Machine Learning Yearning 4-12 閱讀筆記:開發/測試集與評估指標

主要內容 在訓練模型的時候,如果效果不如人意,這時候你可以採取很多辦法來改進模型,但是可選的方法太多,你究竟該先用哪些方法呢?Andrew Ng的這本書就是爲此而寫。Ps:開發集就是驗證集。 4. 規模驅動機器學習前進 驅動深度學習進步的

原创 Machine Learning Yearning 20-27閱讀筆記:偏差和方差

20.方差和偏差:兩大錯誤來源 儘管更多的數據是無害的,但它並不如我們期望的那樣有幫助,獲取更多的數據可能是浪費時間(這裏的方差的定義是非正式的)。 21.例子 這裏的方差和過擬合欠擬合無關 22.和最優錯誤率比較 假設你面對的問題是即使

原创 基於知識圖譜的問答系統(四):向量建模篇

首先根據問題中的主題詞在知識庫中確定候選答案。 把問題和候選答案都映射到一個低維空間,得到它們的分佈式表達(Distributed Embedding), 通過訓練數據對該分佈式表達進行訓練,使得問題向量和它對應的正確答案向量在低維空

原创 知識圖譜學習(一):知識提取

一. 正則表達式 1.1 Python re 1.1.1 regex語法 推薦網站http://pythex.org/,不但有語法,還可以在線測試 1.1.2 match匹配模式 re.match(pattern,st

原创 基於知識圖譜的問答系統(一)

知識庫可以分爲兩種類型,一種是以Freebase,Yago2爲代表的Curated KBs,它們從維基百科和WordNet等知識庫中抽取大量的實體及實體關係,可以把它們理解爲是一種結構化的維基百科,被google收購的Freebase中包

原创 Machine Learning Yearning 28-32閱讀筆記:學習曲線

28.診斷偏差和方差:學習曲線 將期望水平添加到學習曲線中,並通過樣本數-誤差 橫軸訓練集大小,縱軸error,繪製開發集誤差(將訓練誤差也添加進去) 29.繪製訓練錯誤曲線 訓練集誤差隨訓練集大小增加而增加:算法很難完全適應更多的樣本

原创 Machine Learning Yearning 13-19 閱讀筆記:錯誤分析

13.快速構建第一個系統,然後迭代 即使是我(吳恩達)這樣經驗豐富的人,也很難選擇一個正確的前進方向,所以不要試圖設計和構建完美的系統,而應該快速構建第一個系統,然後迭代。PS:對研究人不適用。 14.通過查看開發集樣本來評估idea 當

原创 COMS W4705: Natural Language Processing學習筆記(一)

Machine Translation(機器翻譯),Information Extraction(信息提取),Text Summarization(文本歸納),Dialogue Systems (對話系統)最基本的nlp問題叫做Taggi