nlp 基礎

text corpus,corpus (pl. corpora) 語料,語料庫

大量的文本數據的集合就是語料庫,語料庫可以包含一個或者多個文檔,也可以是一種或多種語言,甚至可以是錄音。針對不同的應用,語料庫也可能會依據段、句或詞等維度被分爲不同的部分。

paragraph 段落

段落通常爲nlp處理中的最大單位。段落如不被分解爲更小的單位,從nlp層面來講,其並沒有太大的價值,但有些時候,段落會被認爲是某種語境(context)的分界(boundary)。在一些python庫中,存在將文檔劃分爲段落的tokenizer。

sentences 語句

語句在npl中是比段落小一級別的單位。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章