Hive-技术补充-ANTLR的真实语法世界

一、上下文

上一篇博客<Hive-技术补充-ANTLR语法编写>,我们了解了如何使用ANTLR语法来表达词法结构和语法结构,下面我们循循渐进的处理身边用过的一些文件或语言:

CSV、JSON、DOT、Cymbol、R 

二、解析CSV文件

有这样一份csv文件

vi data.csv

Details,Month,Amount
Mid Bonus,June,"$2,000"
,January,"""zipoo"""
Total Bonuses,"","$5,000"

可以看到标题行和内容行并无区别,我们需要写一个单独规则来匹配标题

vi CSV.g4

grammar CSV;
file : hdr row+;
hdr : row;
row : filed (',' filed)* '\r'?'\n' ;
filed : TEXT
        | STRING
        | 
        ;
TEXT : ~[,\n\r"]+ ;
STRING : '"'('""'|~'"')* '"' ;; //两个双引号是对双引号的转义

为了不混淆,我们引入一个名为hdr的新规则

下面我们来测试下

antlr4 CSV.g4

javac CSV*.java

grun CSV file -tokens data.csv

grun CSV file -tree data.csv

grun CSV file -gui data.csv

三、解析JSON

1、语法规则

JSON语法指明,一个JSON文件可以是一个对象,或者是一个由若干个值组成的数组。

从语法上看,这不过是一个选择模式,因此可以这样表达

json : object 
    | array 
    ;

对于object,JSON语法指明,一个对象是以一个 { 开始 且以 } 结束。每个值后面跟一个 :  键之间由 , 号分割,对象中的键必须是字符串

我们根据JSON语法指明的自然语言来编写下语法规则

object : '{' pair (',' pair )* '}'
    | '{' '}'     //空对象
    ;
pair : STRING ':' value ;

 也可以优雅的写成这样

object 
    {}
    {members}
members : 
    pair
    pair , members
pair 
    string : value

members是之前我们没有使用过的规则,这是一种不使用(...)* 循环来表达序列模式的方式 

对于array,JSON语法指明,数组是一组值的有序集合,开始于 [ 结束于 ] 中间的值用 , 隔开

array : '[' pair (',' pair )* ']'
    | '[' ']'     //数组
    ;

 但是中间的值可以是一个字符串、一个数字、一个布尔值、null、一个对象、或者一个数组,而且这些结构还可能发生嵌套

value : STRING
    | NUMBER
    | object
    | array        //递归调用
    | 'true'    //递归调用
    | 'false'    //关键字
    | 'null'
    ;

2、词法规则

字符串:

        一个由零个或多个Unicode字符组成的序列,由双引号包裹,其中的字符使用\转义 

        如:\" \\ \/ \b \f \n \r \t \u

        词法定义如下:

    STRING : '"' (ESC | ~["\\])* '"' ;
    fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
    fragment UNICODE : 'u' HEX HEX HEX HEX ;
    fragment HEX : [0-9a-fA-F] ;

        fragment 不是词法符号 而是声明一些可以被其他词法分析器规则使用的规则

        数字:

NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
        | '-'? INT EXP                 //1e10 -3e4
        | '-'? INT                     //-3 59
        ;
 

另外json需要额外处理空白字符 

WS : [ \r\t\n]+ -> skip ;  

3、测试

vi JSON.g4 

grammar JSON;
json : object 
    | array 
    ;
object : '{' pair (',' pair )* '}'
    | '{' '}'     //空对象
    ;
pair : STRING ':' value ;
array : '[' pair (',' pair )* ']'
    | '[' ']'     //数组
    ;
value : STRING
    | NUMBER
    | object
    | array        //递归调用
    | 'true'    //递归调用
    | 'false'    //关键字
    | 'null'
    ;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE) ;
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
    | '-'? INT EXP                 //1e10 -3e4
    | '-'? INT                     //-3 59
    ;
fragment INT : '0' | [1-9] [0-9]* ;  //除0外的数字不允许以0开始
fragment EXP : [Ee] [+\-]? INT ; //\-是-的转义  因为[] 中 - 用于表达 “范围” 含义
WS : [ \r\t\n]+ -> skip ;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ?    //1.35 1.36E-9  -4.6
    | '-'? INT EXP                 //1e10 -3e4
    | '-'? INT                     //-3 59
    ;
WS : [ \r\t\n]+ -> skip ;

antlr4 JSON.g4

javac JSON*.java

输入 [1,"\u0049",1.3e9]

grun JSON json -tokens

grun JSON json -tree

grun JSON json -gui

四、解析R语言

R是一门极富表现力的领域特定编程语言,专门用于描述和解决统计学问题。

vi t.R

addMe <- function(x,y) {return(x+y)}
addMe(x=1,2)
r <- 1:5

vi R.g4

grammar R;
prog:    ( expr_or_assign(';'|NL)
    |    NL
    )*
    EOF
    ;
expr_or_assign 
    : expr('<-'|'='|'<<-') expr_or_assign
    | expr
    ;
//Match both linux and win newLines
NL : '\r'?'\n' ;

expr : expr '[[' sublist ']' ']' //'[['源于R语言的yacc语法
    | expr '[' sublist ']'
    | expr ('::'|':::') expr
    | expr ('$'|'@') expr
    | expr '^'<assoc=right> expr
    | ('-'|'+') expr
    | expr ':' expr
    | expr USER_OP expr //任意被 % 包围的文本:'%' .* '%'
    | expr ('*'|'/') expr
    | expr ('+'|'-') expr
    | expr ('>'|'>='|'<'|'<='|'=='|'!=') expr
    | expr '!' expr
    | expr ('&'|'&&') expr
    | expr ('|'|'||') expr
    | '-' expr
    | expr '-' expr
    | expr ('->'|'->>'|':=') expr
    |'{' exprlist '}' //复合语句
    | 'if' '(' expr ')' expr 
    | 'if' '(' expr ')' expr 'else' expr
    | 'for' '(' ID 'in' expr ')' expr
    | 'while' '(' expr ')' expr
    | 'repeat' expr
    | '?' expr //获取expr的帮助信息,通常是字符串或者标识符
    | 'next'
    | 'break'
    ;
exprlist
    : expr_or_assign ((';' | NL) expr_or_assign?)*
    |
    ;
    
formlist
    : form (',' form)* ;
form
    : ID 
    | ID '=' expr 
    | '...'
    ;
sublist
    : sub (',' sub)* ;
sub 
    : expr 
    | ID '='
    | ID '=' expr
    | STRING '='
    | STRING '=' expr
    | 'NULL' '='
    | 'NULL' '=' expr
    | '...'
    |
    ;
ID  : '.' (LETTER|'_'|'.') (LETTER|DIGIT|'_'|'.')*
    | LETTER(LETTER|DIGIT|'_'|'.')*
    ;
fragment DIGIT : [0-9]; //匹配单个数字
fragment LETTER : [a-zA-Z] ;

antlr4 R.g4

javac R*.java

grun R prog -gui t.R

上一篇:机器学习-随机森林温度预测模型优化-前言


下一篇:原型链-(前端面试 2024 版)