正则表达式

正则表达式分类

        基本的正则表倒是,又叫basic regex

        扩展的正则表达式,又叫extended regex

        Perl的正则表达式,又叫perl regex

基本组成部分:

  \ 转义符,将特殊字符进行转义,忽略其特殊意义。a\.b匹配a.b,但不能匹配ajb,被转义为特殊意义

    \n表示换行,\r表示回车,\t表示水平的制表符,\v表示垂直的制表符,\b表示后退符,\a表示警告,0xx翻译成ASCII码为八进制0xx锁表示的字符

   ^匹配行首,awk中,^则是匹配字符创的开始,^匹配以tux开头的行

   $匹配行尾,awk中,则是匹配字符串的结尾

   .匹配除换行符\n之外的任意单个字符,awk则中可以。ab.匹配abc或bad,不可匹配adcd或abde,只能匹配单字符

   []匹配包含在[^字符之外的任意一个字符],123[^45]不可以匹配1234或1235,1236.1237都可以

   [-]匹配[]中指定范围内的任意一个字符,要写成递增,[0-9]可以匹配1,2或3等其中任意一个数字

    ?匹配之前的项1次或者0次,colou?r可以匹配colour或者colour或者colour,不能匹配colouur

    +匹配之前的项1次或者0次,sa-6+匹配sa-6,sa-666,不能匹配sa-

    *匹配之前的想0次或多次,co*l,匹配cl,col,cool,cool等

    ()匹配表达式,创建一个用于匹配的子串。

     {n}配置之前的项n次,n是可以为0的正整数。

    {n,}之前的项至少需要匹配n次,[0-9]{2,}匹配任意一个两位数或更多位数

    [n,m]指定之前的想至少匹配n次,最多匹配m次,n<=m,[0-9]{2,5}匹配从两位数到五位数之间的任意一个数字

   |交替匹配|两边的任意一项ab(c|d)匹配abc或adb

posix字符类

    posix字符类是一个形如[:...:]的特殊元序列(meta sequence),他可以用于匹配特定的字符范围

    [:alnum:]匹配人一个一个字母或数字字符,[[:alnum:]]+

    [:alpha:]匹配任意一个字母字符(包括大小写),[[:alpha:]]{4}

    [:blank:]空格与制表符(横向和纵向),[[:blank:]]*

    [:digit:]匹配热一个数字字符,[[:digit:]]?

    [:lower:]匹配小写字母,[[:lower:]]{5,}

    [:upper:]匹配大写字母,([[:upper:]]+)?

    [:punct:]匹配标点符号,[[:punct:]]

    [:space:]匹配一个包括换行符,回车等在内的所有空白符,[[:space:]]+

    [:graph:]匹配任何一个可以看得见的且可以打印的字符,[[:graph:]]

    [:xdigit:]任何一个十六进制数(即:0-9,a-f,A-F)

    [:cntrl:]任何一个控制字符(ASCII字符集中的前32个字符),[[:cntrl:]]

    [:print:]任何一个可以打印的字符,[[:print:]]

本文转自   宏强   51CTO博客,原文链接:http://blog.51cto.com/tanhong/2056923

上一篇:关于Python pandas模块输出每行中间省略号问题


下一篇:Python数据写入csv格式文件