首先可以明确的是(已验证),hive中的正则表达式需要两个斜杠:比如\\d才可以匹配数字。
\\w:英文字母、数字、下划线
\\u4E00-\\u9FFF:中文汉字
{m,n}:匹配m~n次
{m,}至少匹配m次
+:匹配一次或多次,和{1,}等价
*:匹配0次或多次
?:非贪婪模式;可选匹配
(?:):非获取匹配
(?<=):非获取匹配,以……开头
(?<!):非获取匹配,不以……开头
(?=):非获取匹配,以……结尾
(?!):非获取匹配,不以……结尾
\\:转义,已经在hive_cli、lapras尝试过,regexp_extract()、regexp_replace()都只能使用两个斜杠转义,一个斜杠都是转义失败的。