Jsoup介绍

Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup主要功能

注册中心:

  • 解析HTML:URL、文件或字符串中解析HTML。
  • 查找\取出数据:使用DOM或CSS选择器来查找、取出数据。
  • 操作HTML(增册改):可操作HTML元素、属性、文本。


以实例来讲解Jsoup使用

步骤:创建项目、pom.xml引入、创建启动类、运行项目。

中文伪代码

需求:我们要爬取Docker技术文章,这个网站页面左边为菜单,右边为内容。

经过分析:菜单里的url,是在css的class:left-navigation下面的a标签下,并且url以/article/index/开始的。

内容:直接在css的class:article_content下面的html。开始写代码了:

  • 首先:抓取网页:Document doc = Jsoup.connect(purl).get()。
  • 开始用Jsoup对doc的查找来取得菜单,代码里是handleParent方法里面。
  • 得到所有的菜单url,我们就可以开始抓取全部页面。
  • 还是Document doc = Jsoup.connect(srcurl).get();这句把网页抓取下来
  • 开始用Jsoup对doc的查找,标题、关键词、描述,内容。打日志显示出来。


pom.xml引入

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

创建启动类

Copyright © 2019-2019主引教程mainboot.com All Rights Reserved. 备案号: 闽ICP备13019624号-4