`
zhuwei2008
  • 浏览: 81907 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

正则表达式提取html中的内容

    博客分类:
  • java
阅读更多
public class Test {

    public static void main(String args[]) {
        String html = "<title>ABCD</title>gsdggas<title></title>jkll<title>005</title>";
        // 简单示例,相当于String html=getHtml(String urlString);
        List resultList = getContext(html);
        for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
            String context = (String) iterator.next();
            System.out.println(context);
        }
    }
    
    /**
     * 提取"<title>XXXX</title>"中的文字XXXX
     * @param html 要解析的html文档内容
     * @return 解析结果,可以多次匹配,每次匹配的结果按文档中出现的先后顺序添加进结果List
     */
    public static List getContext(String html) {
        List resultList = new ArrayList();
        Pattern p = Pattern.compile("<title>([^</title>]*)");//匹配<title>开头,</title>结尾的文档
        Matcher m = p.matcher(html );//开始编译
        while (m.find()) {
            resultList.add(m.group(1));//获取被匹配的部分
        }
        return resultList;
    }
}
分享到:
评论
1 楼 343101272 2009-07-08  
很好很强大

相关推荐

    java正则表达式提取html中的信息

    java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的

    asp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txt

    asp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txtasp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txt

    正则表达式提取html中的所有的Email地址

    C#编写正则表达式,用来提取html网页中的所有的Email地址,共享示例一枚!欢迎下载学习!欢迎访问:http://blog.csdn.net/zxcvbnm32123?viewmode=list

    正则表达式自动生成器 v2.0.0 专业版.zip

    正则表达式自动生成器是一个智能、易用的正则表达式生成、测试以及字符串提取工具。正则表达式库让你可以直接借用正则表达式,而无需自己费脑筋。“正则表达式自动生成器”可以自动生成正则表达式,测试正则表达式,...

    精通正则表达式基于.NET ASP PHP JSP JavaScript

    RegexApplication/Default.aspx 正则表达式类的应用 RegexApplication/GetPageHtmlData.aspx 获取网页的内容 第10章(/10/) ASPNETValidator/Compare.aspx 比较验证 ASPNETValidator/...

    正则表达式简明教程及正则表达式语言元素

    正则表达式的全面样式匹配表示法使您可以快速分析大量文本以找到特定的字符样式,提取、编辑、替换或删除文本子字符串,或将提取的字符串添加到集合以生成报告。对于处理字符串(例如 HTML 处理、日志文件分析和 ...

    所有常用的正则表达式

    匹配HTML标记的正则表达式:(S*?)[^&gt;]*&gt;.*?|*? /&gt; 评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力 匹配首尾空白字符的正则表达式:^s*|s*$ 评注:可以用来删除行首行尾...

    C#中利用正则表达式实现

     .NET 框架正则表达式并入了其他正则表达式实现的最常见功能,被设计为与 Perl 5 正则表达式兼容,.NET 框架正则表达式还包括一些在其他实现中尚未提供的功能,.NET 框架正则表达式类是基类库的一部分,并且可以和...

    精通正则表达式~~~

    精通正则表达式第三版 搜集于网络 前言..........I 第1章:正则表达式入门.... 1 解决实际问题... 2 作为编程语言的正则表达式... 4 以文件名做类比... 4 以语言做类比... 5 正则表达式的知识框架... 6 对于...

    18.C#字符串和正则表达式参考手册 影印版

    6.2 在正则表达式中作决策 168 6.3 在正则表达式内设定选项 171 6.4 正则表达式引擎的规则 171 6.5 小结 173 第7章 正则表达式模式 174 7.1 验证字符 174 7.2 验证数字 175 7.2.1 只包含数字 175 7.2.2 只包含整型数...

    正则表达式经典实例

    他的产品中包括RegexBuddy,世界上唯一可以模拟l5种正则表达式流派特性的正则表达式编辑器,以及PowerGREP,Microsoft Windows平台上功能最强大的9rep工具。 目录: 第1章 正则表达式简介 1.1 正则表达式的定义 ...

    正则表达式经典实例.pdf

    他的产品中包括RegexBuddy,世界上唯一可以模拟l5种正则表达式流派特性的正则表达式编辑器,以及PowerGREP,Microsoft Windows平台上功能最强大的9rep工具。 目录: 第1章 正则表达式简介 1.1 正则表达式的...

    python使用正则表达式提取网页URL的方法

    主要介绍了python使用正则表达式提取网页URL的方法,涉及Python中urllib模块及正则表达式的相关使用技巧,需要的朋友可以参考下

    正则表达式

    正则表达式中的特殊字符 字符 含意 \ 做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。 -或- 对正则表达式功能字符的还原,如"*"匹配它...

    JS使用正则表达式获取小括号、中括号及花括号内容的方法示例

    本文实例讲述了JS使用正则表达式获取小括号、中括号及花括号内容的方法。分享给大家供大家参考,具体如下: JS 正则表达式 获取小括号 中括号 花括号内的内容 &lt;!DOCTYPE html&gt; &lt;html&gt; &lt;head&gt; &lt;...

    Java-PHP正则表达式的使用

    匹配中文字符的正则表达式: [u4e00-u9fa5]  评注:匹配中文还真是个头疼的事,有了这个表达式就好办了  匹配双字节字符(包括汉字在内):[^x00-xff]  评注:可以用来计算字符串的长度(一个双字节字符长度计2...

    Python每日一练(15)-通过正则表达式快速获取电影的下载地址

    在爬取网页信息时,如果在HTML代码中通过获取标签的方式来提取电影的下载地址时,不仅要编写比较多的代码,还需要不断的确认每一层的标签是否正确,这样的操作无疑是烦琐的。如下图所示。那么通过什么方式既可以减少...

    Javascript 与正则表达式

    Javascript 与正则表达式: 一些常用的正则表达式示例: 1、匹配所有的正数:^[0-9]+$ 2、匹配所有的小数:^\-?[0-9]*\.?[0-9]*$ 3、匹配所有的整数:^\-?...11、匹配HTML标记的正则表达式:/&lt;(.*)&gt;.*|&lt;(.*) \/&gt;/

    Python 通过正则表达式快速获取电影的下载地址

    在爬取网页信息的任务中,可以使用正则表达式的方式快速的提取某个标签内的指定信息,以爬取电影的下载地址为例。本案例需要注意编码格式的问题,单击鼠标右键,如图所示查看网页编码: 代码如下: import re ...

    Java基于正则表达式获取指定HTML标签指定属性值的方法

    主要介绍了Java基于正则表达式获取指定HTML标签指定属性值的方法,涉及java基于正则的HTML元素匹配相关操作技巧,需要的朋友可以参考下

Global site tag (gtag.js) - Google Analytics