text corpus,corpus (pl. corpora) 語料,語料庫
大量的文本數據的集合就是語料庫,語料庫可以包含一個或者多個文檔,也可以是一種或多種語言,甚至可以是錄音。針對不同的應用,語料庫也可能會依據段、句或詞等維度被分爲不同的部分。
paragraph 段落
段落通常爲nlp處理中的最大單位。段落如不被分解爲更小的單位,從nlp層面來講,其並沒有太大的價值,但有些時候,段落會被認爲是某種語境(context)的分界(boundary)。在一些python庫中,存在將文檔劃分爲段落的tokenizer。
sentences 語句
語句在npl中是比段落小一級別的單位。