ANTLR 实战 SQL 词法/语法分析
关于 词法/语法分析 和 ANTLR 语法 的详细内容,可参考我的另一篇博客:https://blog.csdn.net/pentiumCM/article/details/106076655。
本篇博客为实战入门速食篇,主要提供demo实战,不做太多内容展开。
ANTLR 是语言识别的一个工具 (ANother Tool for Language Recognition ) ,它提供了一个框架,可以通过包含 Java, C++, 或 C# 动作(action)的语法描述来构造语言识别器,编译器和解释器。
一、准备工具
- 安装 ANTLR 环境:
推荐使用 ANTLR-4.8版本
参考资料:https://www.cnblogs.com/wynjauu/articles/9872822.html
本篇博客主要介绍在 java 环境下面使用 ANTLR,所有有两种方式:
- 方式一:直接基于 java 的 jdk 环境,不使用 java的 IDE中来使用 ANTLR,全程操作在CMD中通过命令
- 方式二:基于 java 的 IDE 来使用 ANTLR,操作比较方便
两种方式皆可,如果电脑中有 ide 编译器,本人建议可使用 ide 安装 ANTLR 的插件来使用 ANTLR。
二、实战环节
1. 方式1:不借助外部 IDE
- 准备 ANTLR 的 文法文件(g4后缀)
可以从 ANTLR 官方提供的 demo 中挑选自己需要的,ANTLR 官方demo:https://github.com/antlr/grammars-v4
为了方便,我直接贴出我已经选好的文法,如下:
MysqlQuery.g4:
MysqlQuery.g4 内容如下:
// 1. 定义一个名为 MysqlQuery 的语法
grammar MysqlQuery;
// 2. rule - 这是核心,表示规则,以 “:” 开始, “;” 结束, 多规则以 "|" 分隔。
// 2.1 lexer - 词法(符号(Token)名大写开头 - 词法)
AS : A S;
SELECT : S E L E C T;
FROM : F R O M;
TABLE : T A B L E;
MAX : M A X;
SUM : S U M;
AVG : A V G;
MIN : M I N;
COUNT : C O U N T;
ALL : A L L;
DISTINCT : D I S T I N C T;
WHERE : W H E R E;
GROUP : G R O U P;
BY : B Y ;
ORDER : O R D E R;
HAVING : H A V I N G;
NOT : N O T;
IS : I S ;
TRUE : T R U E;
FALSE : F A L S E;
UNKNOWN : U N K N O W N;
BETWEEN : B E T W E E N;
AND : A N D;
IN : I N;
NULL : N U L L;
OR : O R ;
ASC : A S C;
DESC : D E S C;
LIMIT : L I M I T ;
OFFSET : O F F S E T;
fragment A : [aA];
fragment B : [bB];
fragment C : [cC];
fragment D : [dD];
fragment E : [eE];
fragment F : [fF];
fragment G : [gG];
fragment H : [hH];
fragment I : [iI];
fragment J : [jJ];
fragment K : [kK];
fragment L : [lL];
fragment M : [mM];
fragment N : [nN];
fragment O : [oO];
fragment P : [pP];
fragment Q : [qQ];
fragment R : [rR];
fragment S : [sS];
fragment T : [tT];
fragment U : [uU];
fragment V : [vV];
fragment W : [wW];
fragment X : [xX];
fragment Y : [yY];
fragment Z : [zZ];
fragment HEX_DIGIT: [0-9A-F];
fragment DEC_DIGIT: [0-9];
fragment LETTER: [a-zA-Z];
ID: ( 'A'..'Z' | 'a'..'z' | '_' | '$') ( 'A'..'Z' | 'a'..'z' | '_' | '$' | '0'..'9' )*;
TEXT_STRING : ( '\'' ( ('\\' '\\') | ('\'' '\'') | ('\\' '\'') | ~('\'') )* '\'' );
ID_LITERAL: '*'|('@'|'_'|LETTER)(LETTER|DEC_DIGIT|'_')*;
REVERSE_QUOTE_ID : '`' ~'`'+ '`';
DECIMAL_LITERAL: DEC_DIGIT+;
// 2.2 parser - 语法
//解析规则(Parser rule)名小写开头,后面可以跟字母、数字、下划线 - 语法
tableName : tmpName=ID;
column_name :ID;
function_name : tmpName=ID ;
selectStatement:
SELECT
selectElements
(
FROM tableSources
( whereClause )?
( groupByCaluse )?
( havingCaluse )?
) ?
( orderByClause )?
( limitClause )?
;
selectElements
: (star='*' | selectElement ) (',' selectElement)*
;
tableSources
: tableName (',' tableName)*
;
whereClause
: WHERE logicExpression
;
logicExpression
: logicExpression logicalOperator logicExpression
| fullColumnName comparisonOperator value
| fullColumnName BETWEEN value AND value
| fullColumnName NOT? IN '(' value (',' value)* ')'
| '(' logicExpression ')'
;
groupByCaluse
: GROUP BY groupByItem (',' groupByItem)*
;
havingCaluse
: HAVING logicExpression
;
orderByClause
: ORDER BY orderByExpression (',' orderByExpression)*
;
limitClause
: LIMIT
(
(offset=decimalLiteral ',')? limit=decimalLiteral
| limit=decimalLiteral OFFSET offset=decimalLiteral
)
;
orderByExpression
: fullColumnName order=(ASC | DESC)?
;
groupByItem
: fullColumnName order=(ASC | DESC)?
;
logicalOperator
: AND | '&' '&' | OR | '|' '|'
;
comparisonOperator
: '=' | '>' | '<' | '<' '=' | '>' '='
| '<' '>' | '!' '=' | '<' '=' '>'
;
value
: uid
| textLiteral
| decimalLiteral
;
decimalLiteral
: DECIMAL_LITERAL
;
textLiteral
: TEXT_STRING
;
selectElement
: fullColumnName (AS? uid)? #selectColumnElement
| functionCall (AS? uid)? #selectFunctionElement
;
fullColumnName
: column_name
;
functionCall
: aggregateWindowedFunction #aggregateFunctionCall
;
aggregateWindowedFunction
: (AVG | MAX | MIN | SUM) '(' functionArg ')'
| COUNT '(' (starArg='*' | functionArg?) ')'
| COUNT '(' aggregator=DISTINCT functionArgs ')'
;
functionArg
: column_name
;
functionArgs
: column_name (',' column_name)*
;
uid
: ID
;
// 在进行解析的过程中,忽略掉空格,换行
WS : [ \t\r\n]+ -> skip ; // skip spaces, tabs, newlines
- 运行命令生成相关java文件与token文件:
在 文件MysqlQuery.g4 所在的目录打开CMD窗口,执行如下的命令:
antlr4 MysqlQuery.g4
如图,箭头1是我们自己定义好的 词法/语法 规则,箭头2是 antlr4 生成命令,箭头3是生成出来的文件。
- 编译java文件
继续在 cmd 窗口中执行命令:
javac ./*.java
- 分析语法树
输入grun命令回车,在命令行输入你要测试的语法,再回车,按Ctrl+z 后回车。
例如,我们需要测试 MysqlQuery.g4 文件中的 selectStatement:
我们在当前的 CMD中输入:
grun MysqlQuery selectStatement -gui
回车之后,即可输入我们需要测试的语句,这时候我们输入:
select a from b where c = 1
继续回车,这时候按 Ctrl+z(结束符)后再按回车,便可得到我们需要的语法树了,并且以 GUI 的形式呈现:
语法树的 GUI 窗口:
2. 方式2:借助 idea
-
IDEA 集成 ANTLR:
参考资料: https://blog.csdn.net/qq_21383435/article/details/80814618 -
在 idea 中新建 maven 项目,在项目中新建 .g4 的文法文件
MysqlQuery.g4 文件内容为方案一中所提供的内容
-
文法可视化
在 idea 中集成使用 ANTLR 的好处是,当你编辑好 .g4的文法文件之后,不需要像方案一中生成 java 等文件在编译 进行测试,直接可以通过 ANTLR Preview进行查看效果。- 在 ide 中调出 ANTLR Preview:
- 在 .g4 的文法文件中选择需要测试的语法:
如我们需要测试 selectStatement,鼠标点到该语法处,然后右键 Text Rule selectStatement
在左侧输入待测试的序列,右侧会自动生成语法树结构,十分方便
- 在 ide 中调出 ANTLR Preview:
参考资料
https://blog.csdn.net/qq_39158142/article/details/86437919
https://blog.csdn.net/sherrywong1220/article/details/53697737?utm_source=blogxgwz4