首页 > 编程语言 > 详细

Java解析html之JSOUP(译)-jsoup Cookbook(1)

时间:2015-08-25 13:01:53      阅读:238      评论:0      收藏:0      [点我收藏+]

解析和遍历文档

解析HTML文档:

String html = "<html><head><title>First parse</title></head>"

  + "<body><p>Parsed HTML into a doc.</p></body></html>";

Document doc = Jsoup.parse(html);


解析器尽可能的解析给出的HTML文件,无论HTML文件是否格式良好。它可以很好的处理:

    (1)未结束的标签(例如:<p>Lorem<p>Ipsum  解析为  <p>Lorem</p> <p>Ipsum</p>)

    (2)未指明的标签(例如:将<td>Table data</td> 包装成 <table><tr><td>Table data </td></tr></tabel>)

    (3)可靠地创建文档结构(包含一个head和一个body的html,在head中只有适当的元素)


文档的对象模型

文档包含Elements和TextNodes(以及其他几个misc节点:见包树的节点)。

继承链是:文档扩展元素扩展节点。TextNode扩展节点。

一个元素包含一系列的孩子节点,有一个父元素。他们也提供过滤的子元素列表。

原文:http://jsoup.org/cookbook/introduction/parsing-a-document

Java解析html之JSOUP(译)-jsoup Cookbook(1)

原文:http://my.oschina.net/endeavour/blog/496552

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!