ANTLR 实战 SQL 词法/语法分析

原創

2020-05-13 08:47

文章目录

ANTLR 实战 SQL 词法/语法分析

参考资料

ANTLR 实战 SQL 词法/语法分析

关于 词法/语法分析 和 ANTLR 语法 的详细内容，可参考我的另一篇博客：https://blog.csdn.net/pentiumCM/article/details/106076655。
本篇博客为实战入门速食篇，主要提供demo实战，不做太多内容展开。

ANTLR 是语言识别的一个工具 (ANother Tool for Language Recognition ) ，它提供了一个框架，可以通过包含 Java, C++, 或 C# 动作（action）的语法描述来构造语言识别器，编译器和解释器。

一、准备工具

安装 ANTLR 环境：
推荐使用 ANTLR-4.8版本
参考资料：https://www.cnblogs.com/wynjauu/articles/9872822.html

本篇博客主要介绍在 java 环境下面使用 ANTLR，所有有两种方式：

方式一：直接基于 java 的 jdk 环境，不使用 java的 IDE中来使用 ANTLR，全程操作在CMD中通过命令
方式二：基于 java 的 IDE 来使用 ANTLR，操作比较方便
两种方式皆可，如果电脑中有 ide 编译器，本人建议可使用 ide 安装 ANTLR 的插件来使用 ANTLR。

二、实战环节

1. 方式1：不借助外部 IDE

准备 ANTLR 的文法文件（g4后缀）
可以从 ANTLR 官方提供的 demo 中挑选自己需要的，ANTLR 官方demo：https://github.com/antlr/grammars-v4

为了方便，我直接贴出我已经选好的文法，如下：
MysqlQuery.g4:
MysqlQuery.g4 内容如下：

// 1. 定义一个名为 MysqlQuery 的语法
grammar MysqlQuery;


// 2. rule - 这是核心，表示规则，以 “:” 开始， “;” 结束， 多规则以 "|" 分隔。

// 2.1 lexer - 词法（符号(Token)名大写开头 - 词法）
AS                              : A S;
SELECT                       : S E L E C T;
FROM                        : F R O M;
TABLE                        : T A B L E;
MAX                         : M A X;
SUM                         : S U M;
AVG                          : A V G;
MIN                          : M I N;
COUNT                     : C O U N T;
ALL                            : A L L;
DISTINCT                  : D I S T I N C T;
WHERE                     : W H E R E;
GROUP                    : G R O U P;
BY                             : B Y ;
ORDER                     : O R D E R;
HAVING                   : H A V I N G;
NOT                          : N O T;
IS                               :  I S ;
TRUE                         : T R U E;
FALSE                        : F A L S E;
UNKNOWN               : U N K N O W N;
 BETWEEN                  : B E T W E E N;
 AND                           :  A N D;
 IN                                :   I N;
 NULL                           : N U L L;
 OR                             : O R ;
 ASC                          : A S C;
 DESC                       : D E S C;
 LIMIT                      : L I M I T ;
 OFFSET                    : O F F S E T;

fragment A      : [aA];
fragment B      : [bB];
fragment C      : [cC];
fragment D      : [dD];
fragment E      : [eE];
fragment F      : [fF];
fragment G      : [gG];
fragment H      : [hH];
fragment I      : [iI];
fragment J      : [jJ];
fragment K      : [kK];
fragment L      : [lL];
fragment M      : [mM];
fragment N      : [nN];
fragment O      : [oO];
fragment P      : [pP];
fragment Q      : [qQ];
fragment R      : [rR];
fragment S      : [sS];
fragment T      : [tT];
fragment U      : [uU];
fragment V      : [vV];
fragment W      : [wW];
fragment X      : [xX];
fragment Y      : [yY];
fragment Z      : [zZ];
fragment HEX_DIGIT:                  [0-9A-F];
fragment DEC_DIGIT:                  [0-9];
fragment LETTER:                         [a-zA-Z];



ID:    ( 'A'..'Z' | 'a'..'z' | '_' | '$') ( 'A'..'Z' | 'a'..'z' | '_' | '$' | '0'..'9' )*;
TEXT_STRING :    (  '\'' ( ('\\' '\\') | ('\'' '\'') | ('\\' '\'') | ~('\'') )* '\''  );
ID_LITERAL:   '*'|('@'|'_'|LETTER)(LETTER|DEC_DIGIT|'_')*;
REVERSE_QUOTE_ID :   '`' ~'`'+ '`';
DECIMAL_LITERAL:     DEC_DIGIT+;


// 2.2 parser - 语法
//解析规则(Parser rule)名小写开头,后面可以跟字母、数字、下划线 - 语法
tableName            : tmpName=ID;
column_name            :ID;
function_name            : tmpName=ID ;

 selectStatement:
       SELECT
        selectElements
    (
        FROM tableSources
        ( whereClause )?
        ( groupByCaluse )?
        ( havingCaluse )?
    ) ?
    ( orderByClause )?
    ( limitClause )?
;


 selectElements
    : (star='*' | selectElement ) (',' selectElement)*
    ;


tableSources
    : tableName (',' tableName)*
    ;

whereClause
    : WHERE    logicExpression
    ;

 logicExpression
     : logicExpression logicalOperator logicExpression
     | fullColumnName comparisonOperator value
     | fullColumnName BETWEEN value AND value
     | fullColumnName NOT? IN '(' value (',' value)*  ')'
     | '(' logicExpression ')'
     ;


groupByCaluse
    :   GROUP BY   groupByItem (',' groupByItem)*
    ;
havingCaluse
    :    HAVING  logicExpression
   ;

 orderByClause
    : ORDER BY orderByExpression (',' orderByExpression)*
    ;

 limitClause
    : LIMIT
    (
      (offset=decimalLiteral ',')? limit=decimalLiteral
      | limit=decimalLiteral OFFSET offset=decimalLiteral
    )
    ;

orderByExpression
    : fullColumnName order=(ASC | DESC)?
    ;



groupByItem
    : fullColumnName order=(ASC | DESC)?
    ;

logicalOperator
    : AND | '&' '&'  | OR | '|' '|'
    ;

comparisonOperator
    : '=' | '>' | '<' | '<' '=' | '>' '='
    | '<' '>' | '!' '=' | '<' '=' '>'
    ;


value
    : uid
    | textLiteral
    | decimalLiteral
    ;

decimalLiteral
    : DECIMAL_LITERAL
    ;
textLiteral
    : TEXT_STRING
    ;

selectElement
    : fullColumnName (AS? uid)?      #selectColumnElement
    | functionCall (AS? uid)?               #selectFunctionElement
    ;


fullColumnName
    : column_name
    ;

functionCall
   :  aggregateWindowedFunction     #aggregateFunctionCall
    ;

aggregateWindowedFunction
    : (AVG | MAX | MIN | SUM) '(' functionArg ')'
    | COUNT '(' (starArg='*' |  functionArg?) ')'
    | COUNT '(' aggregator=DISTINCT functionArgs ')'
    ;

functionArg
    :  column_name
    ;

functionArgs
    : column_name (',' column_name)*
    ;

uid
    : ID
    ;


// 在进行解析的过程中，忽略掉空格，换行
WS : [ \t\r\n]+ -> skip ; // skip spaces, tabs, newlines

运行命令生成相关java文件与token文件：
在文件MysqlQuery.g4 所在的目录打开CMD窗口，执行如下的命令：

antlr4 MysqlQuery.g4

如图，箭头1是我们自己定义好的词法/语法规则，箭头2是 antlr4 生成命令，箭头3是生成出来的文件。

编译java文件
继续在 cmd 窗口中执行命令：

javac ./*.java

分析语法树
输入grun命令回车，在命令行输入你要测试的语法，再回车，按Ctrl+z 后回车。
例如，我们需要测试 MysqlQuery.g4 文件中的 selectStatement：

我们在当前的 CMD中输入：

grun MysqlQuery selectStatement -gui

回车之后，即可输入我们需要测试的语句，这时候我们输入：

select a from b where c = 1

继续回车，这时候按 Ctrl+z（结束符）后再按回车，便可得到我们需要的语法树了，并且以 GUI 的形式呈现：

语法树的 GUI 窗口：

2. 方式2：借助 idea

IDEA 集成 ANTLR：
参考资料： https://blog.csdn.net/qq_21383435/article/details/80814618
在 idea 中新建 maven 项目，在项目中新建 .g4 的文法文件
MysqlQuery.g4 文件内容为方案一中所提供的内容
文法可视化
在 idea 中集成使用 ANTLR 的好处是，当你编辑好 .g4的文法文件之后，不需要像方案一中生成 java 等文件在编译进行测试，直接可以通过 ANTLR Preview进行查看效果。
- 在 ide 中调出 ANTLR Preview：
- 在 .g4 的文法文件中选择需要测试的语法：
  如我们需要测试 selectStatement，鼠标点到该语法处，然后右键 Text Rule selectStatement
  
  在左侧输入待测试的序列，右侧会自动生成语法树结构，十分方便

参考资料

https://blog.csdn.net/qq_39158142/article/details/86437919
https://blog.csdn.net/sherrywong1220/article/details/53697737?utm_source=blogxgwz4

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ANTLR 实战 SQL 词法/语法分析

文章目录

ANTLR 实战 SQL 词法/语法分析

一、准备工具

二、实战环节

1. 方式1：不借助外部 IDE

2. 方式2：借助 idea

参考资料

985 硕士程序员，空窗 4 个月没有 Offer！

营销系统黑名单优化：位图的应用解析

一文搞懂 Spring 循环依赖

我真的从测试转成了开发......

nginx添加相应配置，通过浏览器访问或curl时返回客户端对应公网IP

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

python内置函数——sorted

[oeasy]python020在游戏中体验数值自由_勇闯地下城_终端文字游戏

为何我建议你学会抄代码

抖音面试：说说延迟任务的调度算法？

anaconda，jupyter notebook管理 kernel

jupyter notebook 使用筆記

Windows安裝pytorch0.3.1

查找算法總結，含 java 高質量算法實現

排序算法總結，含 java 高質量算法實現

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結