甜菜侯爵
用正则表达式取出去除html页面中的tags
这个就比较简单了,正则式是 “<[^>]*>”,其表意为“以<开头的,后续任意个不为>的字符,并以>结尾的字符串”
这样做的目的是为了获得所谓plain的文本,方便下一步的处理。
代码如下:
1
/** */
/**
2
* Remove all "<>" tags in the text
3
*
@param
tagText
4
*
@return
the clean text without tags
5
*/
6
public
String removeTags( String tagText )
7
{
8
return
tagText.replaceAll(
"
<[^>]*>
"
,
""
);
9
}
posted on 2009-11-06 22:19
甜菜侯爵
阅读(189)
评论(0)
编辑
收藏
新用户注册
刷新评论列表
只有注册用户
登录
后才能发表评论。
网站导航:
博客园
IT新闻
Chat2DB
C++博客
博问
管理
Powered by:
BlogJava
Copyright © 甜菜侯爵
<
2009年11月
>
日
一
二
三
四
五
六
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
导航
BlogJava
首页
新随笔
联系
聚合
管理
统计
随笔 - 5
文章 - 0
评论 - 3
引用 - 0
常用链接
我的随笔
我的评论
我的参与
最新评论
留言簿
给我留言
查看公开留言
查看私人留言
随笔档案
2009年11月 (4)
2009年10月 (1)
搜索
最新评论
1. re: 世界十大最糟糕网站设计(中文翻译)
真是长见识。
--开花流水
2. re: 世界十大最糟糕网站设计(中文翻译)
阿娇阿娇说的话
--梦芭莎内衣
3. re: 世界十大最糟糕网站设计(中文翻译)[未登录]
真的很糟糕
--George
阅读排行榜
1. 世界十大最糟糕网站设计(中文翻译)(2197)
2. 用正则表达式提取网页中的链接(441)
3. 彩票选号后的数学——抽牌算法的实现(328)
4. 世界十大最糟糕网页设计(256)
5. 用正则表达式取出去除html页面中的tags(189)
评论排行榜
1. 世界十大最糟糕网站设计(中文翻译)(3)
2. 世界十大最糟糕网页设计(0)
3. 用正则表达式取出去除html页面中的tags(0)
4. 用正则表达式提取网页中的链接(0)
5. 彩票选号后的数学——抽牌算法的实现(0)