MATLAB正则表达式
一、正则表达式
正则表达式是一串用于定义某种模式的字符。在有些情况下(例如,在解析程序输入或处理文本块时),您通常会使用正则表达式在文本中搜索与该模式匹配的一组单词。
数据处理是matlab的长项,但是正则表达式在做一些不标准的excel数据处理等还是很有帮助的。
二、需要掌握的基础
元字符
元字符表示字母、字母范围、数字和空格字符。使用它们来构造广义的字符模式。
元字符就是对未知的一种替代
环顾断言
test='strxxx'; % 是一个字符串
% expr是表达式
环顾断言查找紧邻预期匹配项前后但并非该匹配项一部分的模式。
指针停留在当前位置,并且将放弃或不捕获对应于 test 表达式的字符。因此,前向断言可匹配重叠字符组。
环顾断言就是指定匹配范围
正则表达式
email = ‘[a-z_]+@[a-z]+.(com|net)’;
"+
"是连接多个正则表达项
"[a-z_]
“是匹配a-z的26个字母以及一个”_"符号
"\.
“是指”."这个符号
"(com|net)
"指"com"和"net"这两个字符串二选一
就这样,几个正则表达项任意随机(还是按自己的需求)组合在一起就构成了一个正则表达式
正则表达式的用途也就是两种:
- 匹配(提取) |
regexp
(区分大小写)、regexpi
(不区分大小写) - 替换(替换) |
regexprep
三、常用实例
1、匹配(提取)
其中和关键的一个split,能解决大多数问题。
分割返回的是一个数组或者是cell,然后索引就可以直接使用。
我用的
%% 匹配
% 捕获字符向量中包含字母 x 的单词。
str = 'EXTRA! The regexp function helps you relax.';
expression = '\w*x\w*';
matchStr = regexp(str,expression,'match')
% 关键(很多时候这一个就够啦):使用 split 关键字在分隔符处拆分文本
str = 'She sells sea shells by the seashore.';
expression = '[Ss]h.';
[match,~] = regexp(str,expression,'match','split')
% 查找 dd-mmm-yyyy 形式的日期,包括日、月和年的标文。
str = 'Here is a date: 01-Apr-2020';
expression = '(\d+)-(\w+)-(\d+)';
mydate = regexp(str,expression,'tokens');
mydate{:}
% 查找指定字符串之间的内容
% \w* 是标识的一个单词,注意单词的分割
str = '缺少工资表的年份:2018、2019、2020-3000, 缺少考核表的年份: 1999、2008;';
expression = '(?<=:)\w*.*'; % \w*: 任意单字符 .:任何单字符 *:0次或连续多次
matchStr = regexp(str,expression,'match')
expression = '\w*.*(?=,)';
matchStr = regexp(matchStr{1},expression,'match')
%% 替换-只需要替换一下函数就行,方法基本和匹配一样
2、替换
只需要替换一下函数就行,方法基本和匹配一样
参考:matlab正则表达式