NLP中文句子类型判别和分类

目录

一、中文句子类型主要类别

二、中文句子类型分析

三、将句法分析与正则结合标注句子类型

四、构造模型对标注的句子类型进行训练和测试


一、中文句子类型主要类别

1、陈述句(statement)

  • 主语为首(subject_front),例:大家对这件事都很热心
  • 主题为首(theme_front),例:红绿灯,真好玩
  • 复合句(complex),例:他们飞的好高好远,穿过白云,越过海洋

2、特殊句(special)

  • 把字句(ba_struct),例:阳光把冷冷的冬天赶走了
  • 被字句(bei_struct),例:衣服被雨淋湿了
  • 存在句(exist),例:门口有两头狮子
  • 感叹句(sigh),例:真谢谢你!
  • 祈使句(Imperative),例:小心!
  • 连字句(lian_struct),例:我不但眼睛不舒服,好像连耳朵也优点疼
  • 是字句(shi_struct),例:我的爸爸是老师
  • 比较句(compare),例:我的力气比你大

3、疑问句

  • 疑问词问句(特指问句)(question_words),例:你什么时候回来
  • 是非问句(whether),例:你今天会准时下课吗
  • 选择问句(choice),例:他是坐火车来的,还是坐汽车来的
  • 正反问句(pos_and_neg),例:你怕不怕风吹
  • 附加问句(attach),例:这是小明的,是不是
  • 反问句(contrary),例:难道你不喜欢他吗

二、中文句子类型分析

1、陈述句

陈述句的五种基本句型:

2、感叹句

带有浓厚的感情的句子。它表示快乐、惊讶、悲哀、厌恶、恐惧等浓厚的感情。感叹句一般用降调,句末都用叹号(!)表示

叹词构成的感叹句

哎呦!救命呦!

名词构成的感叹句

天哪!这一定是没了命了

口号祝词式的感叹句

各族人民大团结万岁!

“多、多么、好、真”等副词和句尾语气词构成的感叹句

那该有多好啊!

3、祈使句

  • 祈使句的作用是要求、请求或命令、劝告、叮嘱、建议别人做或不做一件事
  • 祈使句的句末一般用感叹号,但是有些祈使句的语气较弱,可以用句号结尾。
  • 祈使句可以用语气词“吧”作结尾,也可以不用语气词。
  • 祈使句可以表示命令、请求、禁止、劝阻等。 祈使句中的主语常常被省去。

(1)表示命令的祈使句:保持肃静!起立!立定!站起来!快去救火!等

(2)表示请求的句式:请……(请等我一会);例:请给我们多提意见!您请坐啊!这个问题你来回答吧!帮帮我的忙吧!等

(3)表示禁止的句式:不准……,不要……,别……(此处不准停车!);例:别动!不许胡说!此处不准吸烟!你不要去!谁也不要随便说话!等

(4)表示劝阻的句式:请勿……(请勿在车厢内饮食);例:要好好听老师话啊!你们几个休息一会儿吧!大家都少说几句吧!你们可别拿他开玩笑了!

4、疑问句(参看

(1)是非问句

主要特点是回答时用肯定或者否定答句,是非问句一般用语气助词“吗”;

比如:会|是…吗,好吗,对吗,是吗,可以吗,能吗,信吗,会吗,怕吗,算吗等。

(2)特指问句(疑问词问句)

特指问句的语序与陈述句相同,提问哪个部分,就把疑问词语放在哪个部分的位置上,加上疑问语调,陈述句就变成了特指问句。

特指问句中的疑问词语绝大多数为疑问代词,如“谁、哪儿、什么”等;还有一些疑问词语为“多+adj”格式,如“多大、多高、多长”等。

(3)选择问句

选择问句用选择形式提出两种(或多种)不同情况,要求对方选择其中一种情况作为回答。选择问句常用“是……还是……”连接,“是”也可以省略。

(4)正反问句

正反问句是把谓语的肯定形式和否定形式并列起来然后提问的疑问句,回答者可选择其中之一作为回答。正反问句可以在句尾加或者不加“呢”,但是不能加“吗”。

比如:会不会,是不是,能不能,信不信,怕不怕,可不可以,算不算等。

(5)反问句

反问句是用疑问句的形式来表示肯定或否定的意义,带有很强的强调意味。

比如:难到,难道不,怎么会,怎能,怎么能,莫非,难不成,不是吗等。

注意:是非问句和正反问句的差异,是非问句一般用语气助词“吗”,是非问句和正反问句关联性很大,有的比较难区分。

5、特殊句

   关于特殊句中的把字句、被字句、存在句、连字句和是字句等都可以通过关键词和语法结构判断。

(1)存在句

存在句:某处(某人)有/没有某物

(2)比较句

比较句:现代汉语比较句是指谓语中含有比较词语或比较格式的句子。

介词‘比’;太湖比西湖大

固定结构:跟(和,同,与,像)……一样;今天跟昨天一样暖和  (正则)

以‘有’引进比较对象的比较句;弟弟有(没有)哥哥那么高

用‘不如’引入比较对象;看这种电影还不如去睡觉

以‘像’引进比较对象;安娜像她妈妈那么漂亮  

用‘越来越’比较句子;天气越来越暖和了

三、将句法分析与正则结合标注句子类型

1、数据集语料可以选择公开的对话数据集:对话数据集下载

2、可以使用LTP,StanfordCoreNLP等分析句子类型的语法结构;LTP中文句法分析

3、根据句子特定结构的关键词,构造正则表达式

4、将正则表达式与句法分析结合对疑问句,陈述句和特殊句进行句子类型标注

四、构造模型对标注的句子类型进行训练和测试

模型可以使用XGBoost等,经实验测试,分类效果还不错

 

注:根据调研的句子标注结果,分类效果都还不错。这里只记录思路,详细的代码和标注数据集不在此公开。

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章