要闻

【java】【htmlparser】htmlparser使用-loull-博客园

陆建銮 2025-11-03 04:11:47

每经编辑｜阿瑟·苏兹贝格

当地时间2025-11-03,gufjhwebrjewhgksjbfwejrwrwek,秒得最新地址hongtaoavgmailcom

【Java】【HTMLParser】精通HTML解析的秘密武器：HTMLParser的强大应用与实战技巧

在当今信(xin)息爆炸的时代，数据的价值日益凸显。而互联网，作为海量信息的宝库，更是吸引着无数开发者前去挖掘。在进行网络数据抓(zhua)取时，HTML解析(xi)无疑是其中至关重要的一环。想(xiang)象一下，您面对(dui)着一个复杂的HTML文档(dang)，需要从中精准地提取(qu)出特定的文本信息、链接，甚至是表格数据，这该是多么令(ling)人头疼的任务？幸运的是，Java社区为我们提供了强大的工具，而HTMLParser便是其中一颗璀璨的明珠。

HTMLParser是一个用Java编写的、轻(qing)量级的、高效的HTML解析器。它能够以多种方式解析HTML，包括(kuo)但不限于DOM（DocumentObjectModel）解析，并提供了一系列便捷的API，让您可以轻松地遍历、搜索和提取HTML文档中的内容。

相较于一些其他的解析库，HTMLParser的优势在于它的简洁性、易用性以(yi)及对不规范HTML的良好容错性。这使得它在各种Web抓取、数据(ju)分析、内容聚合等项目(mu)中大放异(yi)彩。

深入了解HTMLParser的核心概念

在正式开始实战之前，我们有必要先理解(jie)HTMLParser的一些核心(xin)概念。

Parser类:这是HTMLParser的入口点。您(nin)可以通过Parser.parse(url)或Parser.parse(newURL(url))来(lai)获取一个Document对象，其中url是(shi)您想要解析的HTML网页的地址。

Document对象:代表了整个HTML文档。它包含了文档的所(suo)有节点，如元素、文本、注释等。您(nin)可以将Document对象想(xiang)象成一个树状结构，其中根节点是整个HTML文档。Node接口:HTML文档中的所有(you)元素、文本、标签等都可(ke)以看作是Node。

Node接口提供了一(yi)系列通用的方法来访问和操作节点。NodeList:当您通过某些方法获取到多个节点时，它们通常会被封装在一个NodeList中。您可以像遍历数组一样遍历NodeList，并访问其中的每一个Node。Tag类:Tag类(lei)代表了HTML中的一个标签，例如(ru)

等。

它提供了获取标签名、属性名、属(shu)性值等方法。TextNode类:代表HTML中的文本内容。

基础的HTML解析：从URL到文本

让我们从最基础的开始，看看(kan)如何使用HTMLParser来解析一个网页并提取其中(zhong)的文本内容。

您需要将HTMLParser添加到(dao)您的Java项目(mu)中。如(ru)果您使用Maven，可以在pom.xml中添加如下依赖(lai)：

org.htmlparserhtmlparser2.1

我们编写一个简单的Java方法来解析URL并提取文本：

importorg.htmlparser.Parser;importorg.htmlparser.util.ParserException;importorg.htmlparser.nodes.TextNode;importorg.htmlparser.nodes.CompositeNode;importorg.htmlparser.Node;publicclassHtmlParserExample{publicstaticStringextractTextFromUrl(Stringurl){StringBuildertextContent=newStringBuilder();try{Parserparser=newParser(url);NoderootNode=parser.parse(null);//null表示使用默认的ParserFilter//递(di)归遍历节点，提取文本extractTextRecursively(rootNode,textContent);}catch(ParserExceptione){e.printStackTrace();return"ErrorparsingURL:"+e.getMessage();}returntextContent.toString();}privatestaticvoidextractTextRecursively(Nodenode,StringBuildertextContent){if(nodeinstanceofTextNode){textContent.append(((TextNode)node).getText()).append("\n");}elseif(nodeinstanceofCompositeNode){Node[]children=node.getChildrenAsNodeArray();if(children!=null){for(Nodechild:children){extractTextRecursively(child,textContent);}}}}publicstaticvoidmain(String[]args){StringwebsiteUrl="http://example.com";//替换为您想解析(xi)的URLStringextractedText=extractTextFromUrl(websiteUrl);System.out.println("ExtractedText:\n"+extractedText);}}

在这个例子中，我们首先创建一个Parser对象，然后调用parse(null)方法来解析URL。parser.parse(null)返回的是整个文(wen)档的根(gen)节(jie)点(dian)。接着，我们定义了一个(ge)递归方法extractTextRecursively来遍历文档树。

当遇到TextNode时，我们就将其文本内容添加(jia)到textContent中。

这段代码展示了HTMLParser的基本用法，它能够(gou)将一个完整的HTML页面“翻译”成可读的文本。这对于快速预览网页内容或者进行简单的文本分析非常有用。这仅仅是HTMLParser冰山一角。在接下来的部分，我们将(jiang)深入挖掘它更(geng)强大的功能，让您能够精确地定位并提取您所需的数据。

定位与提取：精准抓取您需要的信息

在实际应用中，我们通常不会想要提取(qu)网页的全部文本，而(er)是(shi)需要精确地定位到特定的元素，例如所有的链接、特(te)定class的div、或者某个id的元(yuan)素。HTMLParser提供了强大的过滤和查找机(ji)制，让这种精确操作变得触手可及。

1.使用NodeFilter进行精确匹配

HTMLParser的核心过滤机制是NodeFilter接口。您可(ke)以实现这个接口，定义自己的过滤规则，来选择您感兴趣的节点。最常用(yong)的NodeFilter实现类是TagNameFilter（按标签名过滤）和AndFilter（组合多个过滤器）。

示例：提(ti)取所有标签的链接(jie)

importorg.htmlparser.Parser;importorg.htmlparser.filters.TagNameFilter;importorg.htmlparser.nodes.TagNode;importorg.htmlparser.util.ParserException;importorg.htmlparser.NodeIterator;importorg.htmlparser.Node;importorg.htmlparser.util.NodeList;publicclassLinkExtractor{publicstaticvoidextractLinks(Stringurl){try{Parserparser=newParser(url);//使用TagNameFilter来只选择标签NodeListnodeList=parser.extractAllNodesThatMatch(newTagNameFilter("a"));for(inti=0;i

在这个例子中，TagNameFilter("a")会告诉HTMLParser只返回标签。然(ran)后，我们遍历(li)这些标签，并从中提取href属性的值。这只是NodeFilter的一个简单应(ying)用，您还可以组合多个过滤器(qi)，例如同时按标(biao)签名和属性名进行过滤，实现更精细的选择。

2.遍历DOM树，查找特定元素

除了使(shi)用过滤器，您还可(ke)以直接遍历Document的DOM树，并(bing)结合条件判断来查找特定元(yuan)素。这(zhe)在处理结构相对固定的HTML时非常有效。

示例：查找带有特定id的元素

importorg.htmlparser.Parser;importorg.htmlparser.nodes.TagNode;importorg.htmlparser.util.ParserException;importorg.htmlparser.Node;importorg.htmlparser.NodeVisitor;publicclassSpecificElementFinder{publicstaticvoidfindDivById(Stringurl,StringtargetId){try{Parserparser=newParser(url);NoderootNode=parser.parse(null);//使用NodeVisitor来遍历节点rootNode.accept(newNodeVisitor(){@OverridepublicvoidvisitTag(TagNodetag){//检查是否是(shi)div标签，并(bing)且id属(shu)性匹配if("div".equalsIgnoreCase(tag.getTagName())&&targetId.equals(tag.getAttribute("id"))){System.out.println("Founddivwithid'"+targetId+"':"+tag.toHtml());//如(ru)果只需要第一个匹配的，可以在这里设置一个标志并中(zhong)断遍历}super.visitTag(tag);//继续访问子节点}});}catch(ParserExceptione){e.printStackTrace();}}publicstaticvoidmain(String[]args){StringwebsiteUrl="http://example.com";//替换为您想解析的URLStringidToFind="main-content";//替换为您想查(cha)找(zhao)的idfindDivById(websiteUrl,idToFind);}}

NodeVisitor是一(yi)个强大的遍历工具，它(ta)允许您在遍历DOM树的过程中，对(dui)不同类型的节点执行自定义操作。在这个例子中，我们重写了visitTag方法(fa)，当遇到

标签并且其id属性与我们目标ID匹配时，就打印出该标签的HTML。

3.从表格中提取数据

表格是网页中常见的结构化数据形式，HTMLParser能够有效地从中提取(qu)信息。

示例：提取HTML表(biao)格中的所有单元格(ge)内容

importorg.htmlparser.Parser;importorg.htmlparser.filters.TagNameFilter;importorg.htmlparser.nodes.TagNode;importorg.htmlparser.util.ParserException;importorg.htmlparser.Node;importorg.htmlparser.NodeList;publicclassTableExtractor{publicstaticvoidextractTableData(Stringurl){try{Parserparser=newParser(url);NodeListtables=parser.extractAllNodesThatMatch(newTagNameFilter("table"));for(inti=0;i

2025-11-03,日本成人情色论坛,广发证券投顾服务品牌秀丨骐骥、伯乐等系列投顾服务覆盖客户数超千万

1.快猫入口,美元展望：在CPI数据公布前将维持区间震荡黑色情人节巧克力孟若羽,恒信东方(300081)投资者索赔分析

图片来源：每经记者陈万天摄