一、上下文
上一篇博客<Hive-技术补充-ANTLR语法编写>,我们了解了如何使用ANTLR语法来表达词法结构和语法结构,下面我们循循渐进的处理身边用过的一些文件或语言:
CSV、JSON、DOT、Cymbol、R
二、解析CSV文件
有这样一份csv文件
vi data.csv
Details,Month,Amount
Mid Bonus,June,"$2,000"
,January,"""zipoo"""
Total Bonuses,"","$5,000"
可以看到标题行和内容行并无区别,我们需要写一个单独规则来匹配标题
vi CSV.g4
grammar CSV;
file : hdr row+;
hdr : row;
row : filed (',' filed)* '\r'?'\n' ;
filed : TEXT
| STRING
|
;
TEXT : ~[,\n\r"]+ ;
STRING : '"'('""'|~'"')* '"' ;; //两个双引号是对双引号的转义
为了不混淆,我们引入一个名为hdr的新规则
下面我们来测试下
antlr4 CSV.g4
javac CSV*.java
grun CSV file -tokens data.csv
grun CSV file -tree data.csv
grun CSV file -gui data.csv
三、解析JSON
1、语法规则
JSON语法指明,一个JSON文件可以是一个对象,或者是一个由若干个值组成的数组。
从语法上看,这不过是一个选择模式,因此可以这样表达
json : object
| array
;
对于object,JSON语法指明,一个对象是以一个 { 开始 且以 } 结束。每个值后面跟一个 : 键之间由 , 号分割,对象中的键必须是字符串
我们根据JSON语法指明的自然语言来编写下语法规则
object : '{' pair (',' pair )* '}'
| '{' '}' //空对象
;
pair : STRING ':' value ;
也可以优雅的写成这样
object
{}
{members}
members :
pair
pair , members
pair
string : value
members是之前我们没有使用过的规则,这是一种不使用(...)* 循环来表达序列模式的方式
对于array,JSON语法指明,数组是一组值的有序集合,开始于 [ 结束于 ] 中间的值用 , 隔开
array : '[' pair (',' pair )* ']'
| '[' ']' //数组
;
但是中间的值可以是一个字符串、一个数字、一个布尔值、null、一个对象、或者一个数组,而且这些结构还可能发生嵌套
value : STRING
| NUMBER
| object
| array //递归调用
| 'true' //递归调用
| 'false' //关键字
| 'null'
;
2、词法规则
字符串:
一个由零个或多个Unicode字符组成的序列,由双引号包裹,其中的字符使用\转义
如:\" \\ \/ \b \f \n \r \t \u
词法定义如下:
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
fragment 不是词法符号 而是声明一些可以被其他词法分析器规则使用的规则
数字:
NUMBER : '-'?INT '.' INT EXP ? //1.35 1.36E-9 -4.6
| '-'? INT EXP //1e10 -3e4
| '-'? INT //-3 59
;
另外json需要额外处理空白字符
WS : [ \r\t\n]+ -> skip ;
3、测试
vi JSON.g4
grammar JSON;
json : object
| array
;
object : '{' pair (',' pair )* '}'
| '{' '}' //空对象
;
pair : STRING ':' value ;
array : '[' pair (',' pair )* ']'
| '[' ']' //数组
;
value : STRING
| NUMBER
| object
| array //递归调用
| 'true' //递归调用
| 'false' //关键字
| 'null'
;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE) ;
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ? //1.35 1.36E-9 -4.6
| '-'? INT EXP //1e10 -3e4
| '-'? INT //-3 59
;
fragment INT : '0' | [1-9] [0-9]* ; //除0外的数字不允许以0开始
fragment EXP : [Ee] [+\-]? INT ; //\-是-的转义 因为[] 中 - 用于表达 “范围” 含义
WS : [ \r\t\n]+ -> skip ;
STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' ([\\/bfnrt] | UNICODE)
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;
NUMBER : '-'?INT '.' INT EXP ? //1.35 1.36E-9 -4.6
| '-'? INT EXP //1e10 -3e4
| '-'? INT //-3 59
;
WS : [ \r\t\n]+ -> skip ;
antlr4 JSON.g4
javac JSON*.java
输入 [1,"\u0049",1.3e9]
grun JSON json -tokens
grun JSON json -tree
grun JSON json -gui
四、解析R语言
R是一门极富表现力的领域特定编程语言,专门用于描述和解决统计学问题。
vi t.R
addMe <- function(x,y) {return(x+y)}
addMe(x=1,2)
r <- 1:5
vi R.g4
grammar R;
prog: ( expr_or_assign(';'|NL)
| NL
)*
EOF
;
expr_or_assign
: expr('<-'|'='|'<<-') expr_or_assign
| expr
;
//Match both linux and win newLines
NL : '\r'?'\n' ;expr : expr '[[' sublist ']' ']' //'[['源于R语言的yacc语法
| expr '[' sublist ']'
| expr ('::'|':::') expr
| expr ('$'|'@') expr
| expr '^'<assoc=right> expr
| ('-'|'+') expr
| expr ':' expr
| expr USER_OP expr //任意被 % 包围的文本:'%' .* '%'
| expr ('*'|'/') expr
| expr ('+'|'-') expr
| expr ('>'|'>='|'<'|'<='|'=='|'!=') expr
| expr '!' expr
| expr ('&'|'&&') expr
| expr ('|'|'||') expr
| '-' expr
| expr '-' expr
| expr ('->'|'->>'|':=') expr
|'{' exprlist '}' //复合语句
| 'if' '(' expr ')' expr
| 'if' '(' expr ')' expr 'else' expr
| 'for' '(' ID 'in' expr ')' expr
| 'while' '(' expr ')' expr
| 'repeat' expr
| '?' expr //获取expr的帮助信息,通常是字符串或者标识符
| 'next'
| 'break'
;
exprlist
: expr_or_assign ((';' | NL) expr_or_assign?)*
|
;
formlist
: form (',' form)* ;
form
: ID
| ID '=' expr
| '...'
;
sublist
: sub (',' sub)* ;
sub
: expr
| ID '='
| ID '=' expr
| STRING '='
| STRING '=' expr
| 'NULL' '='
| 'NULL' '=' expr
| '...'
|
;
ID : '.' (LETTER|'_'|'.') (LETTER|DIGIT|'_'|'.')*
| LETTER(LETTER|DIGIT|'_'|'.')*
;
fragment DIGIT : [0-9]; //匹配单个数字
fragment LETTER : [a-zA-Z] ;
antlr4 R.g4
javac R*.java
grun R prog -gui t.R