关于 regcomp()、regexec() 正则表达式的问题

原創

2020-02-25 09:22

关于在c中使用正则表达式

在GNU C 中要使用规则表达式，需要用到以下几个函数。（定义在/usr/include/regex.h文件中）
* int regcomp (regex_t *compiled, const char *pattern, int cflags)
* int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags)
* void regfree (regex_t *compiled)
* size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length)
下面我就介绍分别一下这几个函数和它用到的一些数据类型。

1.int regcomp (regex_t *compiled, const char *pattern, int cflags)
这个函数把指定的规则表达式pattern编译成一种特定的数据格式compiled，这样可以使匹配更有效。函数regexec 会使用这个数据在目标文本串中进行模式匹配。执行成功返回０。
regex_t 是一个结构体数据类型，用来存放编译后的规则表达式，它的成员re_nsub 用来存储规则表达式中的子规则表达式的个数，子规则表达式就是用圆括号包起来的部分表达式。
pattern 是指向我们写好的规则表达式的指针。
cflags 有如下4个值或者是它们或运算(|)后的值:
REG_EXTENDED 以功能更加强大的扩展规则表达式的方式进行匹配。
REG_ICASE 匹配字母时忽略大小写。
REG_NOSUB 不用存储匹配后的结果。
REG_NEWLINE 识别换行符，这样'$'就可以从行尾开始匹配，'^'就可以从行的开头开始匹配。

2. int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags)
当我们编译好规则表达式后，就可以用regexec 匹配我们的目标文本串了，如果在编译规则表达式的时候没有指定cflags的参数为REG_NEWLINE，则默认情况下是忽略换行符的，也就是把整个文本串当作一个字符串处理。执行成功返回０。
regmatch_t 是一个结构体数据类型，成员rm_so 存放匹配文本串在目标串中的开始位置，rm_eo 存放结束位置。通常我们以数组的形式定义一组这样的结构。因为往往我们的规则表达式中还包含子规则表达式。

注：如果我们要提取子字符串，需将待提取的部分的匹配规则用小括号括起来，执行后，regmatch_t数组0单元存放主规则表达式位置，被括号括起来的子串的位置信息从1单元开始被按顺序保存。
compiled 是已经用regcomp函数编译好的规则表达式。
string 是目标文本串。
nmatch 是regmatch_t结构体数组的长度。
matchptr regmatch_t类型的结构体数组，存放匹配文本串的位置信息。
eflags 有两个值
REG_NOTBOL如果该位被设置，那么行开始操作符’^’不匹配目标字符串行开头（可能因为它不是一行的开头），不如不设置，那么’^’匹配一个字符串的开头。

原文如下：
If this bit is set, then the beginning-of-line operator doesn't match the beginning of the string (presumably because it's not the beginning of a line).If not set, then the beginning-of-line operator does match the beginning of the string.
REG_NOTEOL 和上边那个作用差不多，不过这个指定结束end of line。

3. void regfree (regex_t *compiled)

当我们使用完编译好的规则表达式后，或者要重新编译其他规则表达式的时候，我们可以用这个函数清空compiled指向的regex_t结构体的内容，请记住，如果是重新编译的话，一定要先清空regex_t结构体。

4. size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length)

当执行regcomp 或者regexec 产生错误的时候，就可以调用这个函数而返回一个包含错误信息的字符串。
errcode 是由regcomp 和 regexec 函数返回的错误代号。
compiled 是已经用regcomp函数编译好的规则表达式，这个值可以为NULL。
buffer 指向用来存放错误信息的字符串的内存空间。
length 指明buffer的长度，如果这个错误信息的长度大于这个值，则regerror 函数会自动截断超出的字符串，但他仍然会返回完整的字符串的长度。所以我们可以用如下的方法先得到错误字符串的长度。
size_t length = regerror (errcode, compiled, NULL, 0);

以上是在网上找到的正则表达式函数使用说明。

关于正则表达式语法规则，网上有一篇介绍得很完整的文档: http://deerchao.net/tutorials/regex/regex.htm

但在实际编程使用过程中发现我们的ecos平台的正则表达式对很多的标准元语不支持，或许它有一套不同的规则，但现在还不是很了解，下面是一些遇到的问题：

1.对/d,/w,/s一类的很多元语不支持。

2.转义字符标准‘/^’表达字符‘^’，但我们的平台使用’//^’。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

关于 regcomp()、regexec() 正则表达式的问题

关于在c中使用正则表达式

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

視頻編碼之YCbCr、YUV

Openssl應用編程

BSD接口層關鍵數據結構

圖像術語知識

2400路由器開發環境搭建步驟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結