sed多行匹配 - zhyiwww - 语源科技BlogJava

sed多行匹配

在你抓取到的html文件，如果想查找并选出一个标签间的内容的话，就需要使用多行匹配。这一点上grep不能提供此功能。所以就可以使用sed的多行匹配功能。
比如，你想选出
<html>
<body>
<div class="info">
......
......
</div>

</body>
</html>

两个div标签之间的内容。
可以用下面的方法

  $ sed -n -e '/<div>/p' -e '/<div class=\"info\">/,/<\/div>/p' *.html >  all.html

以上方法参考自此文章http://www.fwolf.com/blog/post/346，这篇文章写得很好。

以下内容均引自上述文章。

Update @ 2007-12-14

在和bxy讨论的过程中，又发现sed的另外一种用途，从html或xml中按照tag对应关系，筛选打印出指定的tag内容，使用了正则中的p命令，好像默认就没有“不能处理多行内容”以及“贪婪性”的问题，很好用，很强大：

    $ sed -n -e '/<title>/p' -e '/<text /,/<\/text>/p' from.xml

注意/<\/text>/不在同一行的时候才好用，不然会匹配到下一个实例出现的位置作为结束边界。

|----------------------------------------------------------------------------------------|
版权声明版权所有 @zhyiwww
引用请注明来源 http://www.blogjava.net/zhyiwww
|----------------------------------------------------------------------------------------|

posted on 2009-10-29 18:10 zhyiwww 阅读(8475) 评论(0) 编辑收藏所属分类: linux

常用链接

留言簿(33)

随笔分类(626)

朋友的博客

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

Update @ 2007-12-14


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: ubuntu上安装repo 禅道PDO_MySQL扩展的安装 apache+subversion+ssl配置 tar打包时排除一些文件或者目录 find仅列某一级目录的内容 linux查看目录大小红帽5.4企业版上yum的安装和配置 Shell脚本执行时出现declare: not found的解决方法 Shell把字符串声明成变量 Ubuntu下修改PDF默认打开程序