概念
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
步骤
public class JsoupDemo1 {
    public static void main(String[] args) throws IOException {
        //1.获取document对象,根据xml文档获取
//        1.1获取student.xml的path
        String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();
//        1.2解析xml文档,加载文档进内存,获取dom树
        Document document = Jsoup.parse(new File(path),"utf-8");
//        2 获取元素对象
        Elements elements = document.getElementsByTag("name");
//        2.1 获取第一个name的Element对象
        Element element = elements.get(0);
//        2.2获取数据
        String name = element.text();
        System.out.println(name);
    }
}
对象的使用
Jsoup:工具类,可以解析html或xml文档,返回Document对象
Document:文档对象。代表内存中的dom树
获取Element对象
getElementsByid(String id):根据id属性值获取唯一的element对象
getElementsByTag(String tagName):根据标签名获取元素对象集合
getElementsByAttribute(String key):根据属性名称获取元素对象集合
getElementsByTAttributeValue(String key,String value):根据对应的属性名和属性值获取元素对象集合
Elements:元素Element对象的集合。可以当做ArrayList
获取子元素对象
getElementsByid(String id):根据id属性值获取唯一的element对象
getElementsByTag(String tagName):根据标签名获取元素对象集合
getElementsByAttribute(String key):根据属性名称获取元素对象集合
getElementsByTAttributeValue(String key,String value):根据对应的属性名和属性值获取元素对象集合
获取属性值
获取文本内容
Node:节点对象
快捷查询方式
原文:https://www.cnblogs.com/cjdstudy/p/12764731.html