命名實體識別-序列標註
標籤類型
進行命名實體識別時,通常對每個字進行標註。中文爲單個字,英文爲單詞,空格分割。
標籤類型一般如下:
類型 | 說明 |
---|---|
B | Begin,代表實體片段的開始 |
I | Internediate,代表實體片段的中間 |
E | End,代表實體片段的結束 |
S | Single,代表實體片段爲單個字 |
O | Other,代表字符不爲任何實體 |
標註類型
這裏介紹比較常用的幾種標註方式
BIO:標識實體的開始,中間部分和非實體部分
BIOS:增加S單個實體情況的標註
BIOSE:增加E實體的結束標識
標註demo
BIO標註&&BIOSE標註