正则表达式三十分钟入门（本文转自http://deerchao.net/tutorials/regex/regex.htm）感谢作者 deerchao

正则表达式学习笔记

首先推荐一篇入门文章：http://deerchao.net/tutorials/regex/regex.htm#mission

感谢作者

下面先对本文章做一下笔记：

1、正则表达式是什么：处理字符串的有效工具。

2、从例子开始学习正则：

表1.常用的元字符
代码	说明
.	匹配除换行符以外的任意字符
"w	匹配字母或数字或下划线或汉字
"s	匹配任意的空白符
"d	匹配数字
"b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

和忽略大小写的选项类似，有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项，^和$的意义就变成了匹配行的开始处和结束处。

3、字符转义：如果查找元字符本身用"+元字符，如：".表示匹配 . 。

4、重复的处理

表2.常用的限定符
代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

5、字符类

要想查找数字，字母或数字，空白是很简单的，因为已经有了对应这些字符集合的元字符，但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),应该怎么办？

很简单，你只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)。

6、分支条件

使用分枝条件时，要注意各个条件的顺序。如果你把它改成"d{5}|"d{5}-"d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

7、分组

描述一个正确的IP地址：((2[0-4]"d|25[0-5]|[01]?"d"d?)".){3}(2[0-4]"d|25[0-5]|[01]?"d"d?)。

这里面(2[0-4]"d|25[0-5]|[01]?"d"d?)的意义

8、反义

表3.常用的反义代码
代码/语法	说明
"W	匹配任意不是字母，数字，下划线，汉字的字符
"S	匹配任意不是空白符的字符
"D	匹配任意非数字的字符
"B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

9、向后引用

后向引用用于重复搜索前面某个分组匹配的文本。例如，"1代表分组1匹配的文本。难以理解？请看示例：

"b("w+)"b"s+"1"b可以用来匹配重复的单词，像go go, 或者kitty kitty。这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字("b("w+)"b)，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符("s+)，最后是分组1中捕获的内容（也就是前面匹配的那个单词）("1)。

表4.常用分组语法
分类	代码/语法	说明
捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
	(?<name>exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
	(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp后面的位置
	(?!exp)	匹配后面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如"b"w+(?=ing"b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc。

(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<="bre)"w+"b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

//此处注意以下例子分析如下

假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了)，你可以这样查找需要在前面和里面添加逗号的部分：((?<="d)"d{3})+"b，用它对1234567890进行查找时结果是234567890。

因为对于断言是指只有当条件为真时才会继续。上诉正则表达式为了找到匹配字符串，重左至右一次开始只有当到达1时，后续字符串满足条件。

设想如果从 12345678901 字符串中获取满足此正则表达式的应该为字符串2345678901 。

"b"w*q[^u]"w*"b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐，直接就观察出来了)，你会发现，如果q出现在单词的结尾的话，像Iraq,Benq，这个表达式就会出错。这是因为[^u]总要匹配一个字符，所以如果q是单词的最后一个字符的话，后面的[^u]将会匹配q后面的单词分隔符(可能是空格，或者是句号或其它的什么)，后面的"w*"b将会匹配下一个单词，于是"b"w*q[^u]"w*"b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题，因为它只匹配一个位置，并不消费任何字符。现在，我们可以这样来解决这个问题："b"w*q(?!u)"w*"b。

零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。例如："d{3}(?!"d)匹配三位数字，而且这三位数字的后面不能是数字；"b((?!abc)"w)+"b匹配不包含连续字符串abc的单词。

一个更复杂的例子：(?<=<("w+)>).*(?=<"/"1>)匹配不包含属性的简单HTML标签内里的内容。(<?("w+)>)指定了这样的前缀：被尖括号括起来的单词(比如可能是)，然后是.*(任意的字符串),最后是一个后缀(?=<"/"1>)。注意后缀里的"/，它用到了前面提过的字符转义；"1则是一个反向引用，引用的正是捕获的第一组，前面的("w+)匹配的内容，这样如果前缀实际上是的话，后缀就是了。整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀本身)。

10、注释

小括号的另一种用途是通过语法(?#comment)来包含注释。例如：2[0-4]"d(?#200-249)|25[0-5](?#250-255)|[01]?"d"d?(?#0-199)。

(?<= # 断言要匹配的文本的前缀

<("w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)

) # 前缀结束

.* # 匹配任意文本

(?= # 断言要匹配的文本的后缀

<"/"1> # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签

) # 后缀结束

表5.懒惰限定符
代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

11、

posted on 2011-02-24 14:49 scorpio小蝎阅读(819) 评论(0) 编辑收藏所属分类: C# 、java

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 正则表达式三十分钟入门（本文转自http://deerchao.net/tutorials/regex/regex.htm）感谢作者 deerchao 实现简单的 hosts 添加和删除工具

正则表达式三十分钟入门（本文转自http://deerchao.net/tutorials/regex/regex.htm）感谢作者 deerchao

导航

统计

常用链接

留言簿

随笔分类

随笔档案

友情链接

搜索

最新评论

阅读排行榜

评论排行榜