HtmlparseUtil.java

gundumw100

浏览: 5778606 次
性别:
来自: 上海

最近访客更多访客>>

李大喵和李小喵

hjg8858

henseycai

beishen

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

j2ee+apache

Java J#Blog

该类并不是一个通用的工具类，需要按自己的要求实现，这里只记录了Htmlparse.jar包的一些用法。仅此而已！
详细看这里：http://gundumw100.iteye.com/blog/704311

import java.util.*;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.BodyTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

/**
 * httpclient与htmlparse对网页的解析
 * 
 * @author Administrator
 * 
 */
public class HtmlparseUtil {
	WebHttpClient util=new WebHttpClient();
	/**
	 * 获得网页中的超链接，将href和text保存在Map中：map(href,text)
	 * @param url
	 * @param charset
	 * @return
	 */
	public Map<String, String> linkGet(String url, String charset) {
		String content=util.getWebContentByGet(url,charset);
		Map<String, String> linkMap = new HashMap<String, String>();
		try {
			//开始解析
			Parser parser = Parser.createParser(content, charset);
			// 过滤出<a></a>标签
			NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
			NodeList list = parser.extractAllNodesThatMatch(linkFilter);
			Node node = null;
			for (int i = 0; i < list.size(); i++) {
				node = list.elementAt(i);
				// 获得网页中的链接map(href,text)
				linkMap.put(((LinkTag) node).getLink(), this.processText(((LinkTag) node).getLinkText()));
			}
		} catch (ParserException e) {
			e.printStackTrace();
		} 
		return linkMap;
	}

	/**
	 * 获得网页<body></body>标签中的内容， 保存在body中
	 * @param url
	 * @param charset
	 * @return
	 */
	public String bodyGet(String url, String charset) {
		String content=util.getWebContentByGet(url,charset);
		String body = "";
		try {
			Parser parser = Parser.createParser(content, charset);
			// 过滤<body></body>标签
			NodeFilter bodyFilter = new NodeClassFilter(BodyTag.class);
			NodeList list = parser.extractAllNodesThatMatch(bodyFilter);
			Node node = null;
			for (int i = 0; i < list.size(); i++) {
				node = list.elementAt(i);
				// 获得网页内容 保存在content中
				body = ((BodyTag) node).getBody();
			}
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return body;
	}

	/**
	 * 过滤出class为term的<span>元素,并获得他们的文本
	 * @param url
	 * @param charset
	 * @return
	 */
	public Map<String,String> termGet(String url, String charset) {
		String content=util.getWebContentByGet(url,charset);
		
		Map<String, String> map = new HashMap<String, String>();
		try {
			//开始解析
			// 过滤出class为term的<span>元素
			Parser parser = Parser.createParser(content, charset);
			AndFilter filter = 
                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","term"));
            
			Node node = null;
			NodeList nodeList = parser.parse(filter);
			
			for (int i = 0; i < nodeList.size(); i++) {
				node = nodeList.elementAt(i);
				map.put("term", node.toPlainTextString());
			}
			// 过滤出class为start-time的<span>元素
			Parser parser2 = Parser.createParser(content, charset);
			AndFilter filter2 = 
                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","start-time"));
			NodeList nodeList2 = parser2.parse(filter2);
			for (int i = 0; i < nodeList2.size(); i++) {
				node = nodeList2.elementAt(i);
				map.put("start-time", node.toPlainTextString());
			}
			// 过滤出id为J_SingleEndTimeLabel的<span>元素
			Parser parser3 = Parser.createParser(content, charset);
			AndFilter filter3 = 
                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("id","J_SingleEndTimeLabel"));
			NodeList nodeList3 = parser3.parse(filter3);
			for (int i = 0; i < nodeList3.size(); i++) {
				node = nodeList3.elementAt(i);
				map.put("end-time", node.toPlainTextString());
			}
			
			// 过滤出class为box post的<div>元素
			Parser parser4 = Parser.createParser(content, charset);
			AndFilter filter4 = 
                new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","box post"));
			NodeList nodeList4 = parser4.parse(filter4);
			for (int i = 0; i < nodeList4.size(); i++) {
				node = nodeList4.elementAt(i);
				String temp=node.toPlainTextString().trim();
				temp=temp.substring(10,20).trim();
				map.put("pre-term", temp);
			}
			
			// 过滤出class为J_AwardNumber的<span>元素
			Parser parser5 = Parser.createParser(content, charset);
//			AndFilter filter5 = 
//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","J_AwardNumber"));
			NodeList nodeList5 = parser5.parse(new HasAttributeFilter("class","J_AwardNumber"));
			StringBuffer buffer=new StringBuffer();
			for (int i = 0; i < nodeList5.size(); i++) {
				node = nodeList5.elementAt(i);
				buffer.append(","+node.toPlainTextString());
			}
			buffer.append("|");
			
			// 过滤出class为blue J_AwardNumber的<span>元素
			Parser parser6 = Parser.createParser(content, charset);
//			AndFilter filter6 = 
//                new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","blue J_AwardNumber"));
			NodeList nodeList6 = parser6.parse(new HasAttributeFilter("class","blue J_AwardNumber"));
			for (int i = 0; i < nodeList6.size(); i++) {
				node = nodeList6.elementAt(i);
				buffer.append(node.toPlainTextString()+",");
			}
			
			map.put("numbers", buffer.toString());
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		return map;
	}
	
	private String processText(String content){   
		content=content.trim().replaceAll("&nbsp;", "");   
//		content=content.replaceAll("<p>", "\n");   
//		content=content.replaceAll("</TD>", "");   
//		content=content.replaceAll("</div>", "");   
//		content=content.replaceAll("</a>", "");   
//		content=content.replaceAll("<a href=.*>", "");   
        return content;   
    }   
	
	public static void main(String[] str) {
		
		String url="http://caipiao.taobao.com/lottery/order/lottery_dlt.htm?type=1";
		HtmlparseUtil util=new HtmlparseUtil();
		Map<String,String> map=util.termGet(url, "gb2312");
		System.out.println("term="+map.get("term"));//<span class="term">第<em>10074</em>期</span>
		System.out.println("start-time="+map.get("start-time"));//
		System.out.println("end-time="+map.get("end-time"));//
		System.out.println("pre-term="+map.get("pre-term"));//
		System.out.println("numbers="+map.get("numbers"));//
		
		/*
		Map<String, String> linkMap = util.linkGet(url, "gb2312");
		for (String s : linkMap.keySet()) {
			System.out.println(s + " = " + linkMap.get(s));
			//如果是个链接，则再获取它的<body>中的内容
//			if (s.startsWith("http")) {
//				util.bodyGet(s, "gb2312");
//			}
		}
		*/
		
	}
	
}

分享到：

DESPlus+Base64+MD5Util | J2EE工具类：ClientSocketUtil.java&Server ...

2010-07-02 17:08
浏览 7507
评论(3)
分类:编程语言
查看更多

3 楼 anybyb 2012-01-06

终于找到了哈哈试试去

2 楼 gundumw100 2011-12-23

svygh123 写道

请问WebHttpClient是什么类呢，可以提供吗？谢谢

在这里http://gundumw100.iteye.com/blog/702521的WebClient类就是！

1 楼 svygh123 2011-12-22

请问WebHttpClient是什么类呢，可以提供吗？谢谢

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

node-v12.14.0-darwin-x64.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

基于使用microPython的开发单片机设计源码.zip: 我们在单片机开发中常会遇到需要将UTF-8转换为GBK编码的需求。在了解各种编码格式的情况下可知， UFT-8不能直接转成GBK，需中转成unicode再转换为gbk。而unicode和gbk之间没有算法可以直接计算，需要查表方式获取。网上有一些C语言实现的代码，我这里分享一种microPython的实现代码接下来就是要考虑表的存储方式了，刚开始我想着把表存到代码里直接通过索引实现编码转换。但是gb2312有七千多个字符全部存储要耗费很大内存，即使是32位的esp32也只有512k的内存，加上其他资源的消耗，剩余的内存不足以存储编码转换表。于是只能将表保存成一个文件（转化成bin文件会比较好，方法类似），通过读写文件来减少内存开销。具体的查表就是简单的二分法

基于VB实现的车队综合业务管理系统(论文+源代码): 基于VB实现的车队综合业务管理系统(论文+源代码) 【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。

基于知识图谱的推荐算法-NCFG的实现python源码+运行说明.zip: 基于知识图谱的推荐算法-NCFG的实现运行环境 python == 3.7.0 torch == 1.12.0 pandas == 1.1.5 numpy == 1.21.6 sklearn == 0.0 数据集介绍 music-音乐 book-书籍 ml-电影 yelp-商户文件介绍 ratings.txt：记录用户点击的项目，1代表点击了，0代表没有点击 kg.txt：知识图谱文件，第一列是头实体，第二列是尾实体，第三列是关系 user-list.txt：用户及其id文件，第一列是用户的id，第二列是用户其余文件可忽略

JAVA002打飞机游戏设计（程序+设计说明书）.zip: JAVA002打飞机游戏设计（程序+设计说明书）.zip

Engineering-Electromagnetic-Theory-Lab-3.pdf: Engineering_Electromagnetic_Theory_Lab_3.pdf

自己弄的基于matlab实现的多端直流配电网的仿真模型，是支撑自己小论文的东东仿真环境是用的matlab: 自己弄的基于matlab实现的多端直流配电网的仿真模型，是支撑自己小论文的东东。仿真环境是用的matlab。

BBR、A2O、MBR工艺比选.doc: 课程设计，污水处理设计方案

DHT11温湿度传感器是一款高性能、低成本的数字温湿度复合传感器它集成了温度感应和湿度感应功能，可以准确地测量环境中的温度和湿: DHT11温湿度传感器是一款高性能、低成本的数字温湿度复合传感器。它集成了温度感应和湿度感应功能，可以准确地测量环境中的温度和湿度，并通过数字信号输出数据。以下是关于DHT11温湿度传感器的详细介绍： DHT11传感器内部包含一个NTC热敏电阻用于温度测量和一个薄膜电容湿度传感材料用于湿度测量。NTC热敏电阻的电阻值会随着温度的变化而变化，DHT11通过测量电阻值的变化来计算环境的温度。而薄膜电容湿度传感材料的电容值则会随着湿度的变化而变化，DHT11通过测量电容值的变化来计算环境的湿度。 DHT11传感器具有高精度、高可靠性和稳定性好的特点。其湿度测量范围为20%RH至90%RH，精度可达±5%RH；温度测量范围为-20℃至+60℃，精度可达±2℃。传感器的工作电压范围为3.3V至5.5V，工作电流较小，功耗低。此外，DHT11传感器还具有超长的信号传输距离和超强的抗干扰能力，可以在复杂的环境中稳定工作。 DHT11传感器采用单总线数字信号传输方式，通过单个引脚进行数据输入和输出。它使用特定的时序信号来传输温度和湿度数据，主机可以通过解析这些时序信号来获取温度和湿度的数值。这种

某钢厂转炉浊环供水泵站给排水竣工图.zip: 污水处理

delphi家庭财务管理系统.zip: delphi家庭财务管理系统.zip

node-v10.23.2-linux-arm64.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

ASP+ACCESS网上人才信息管理系统(源代码+设计说明书).zip: ASP+ACCESS网上人才信息管理系统(源代码+设计说明书).zip

ASP基于BS结构的工厂设备管理系统的设计与开发(源代码+设计说明书).zip: ASP基于BS结构的工厂设备管理系统的设计与开发(源代码+设计说明书).zip

node-v10.23.3-linux-arm64.tar.xz: Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

埃森哲_组织设计的指导思想gl.ppt: 埃森哲_组织设计的指导思想gl.ppt

卷积神经网络（Convolutional Neural Networks，CNN）是深度学习领域中一种非常重要的神经网络结构，特: 卷积神经网络（Convolutional Neural Networks，CNN）是深度学习领域中一种非常重要的神经网络结构，特别适用于处理图像和视频数据。以下是关于卷积神经网络的500字资源介绍：卷积神经网络是一类包含卷积计算的前馈神经网络，它的核心在于“卷积与池化”操作。在卷积层中，神经元仅与部分邻层神经元连接，这种局部连接和权值共享的特性使得卷积神经网络能够以较小的计算量学习格点化特征，如像素和音频，且稳定有效。卷积神经网络的主要构成包括卷积层、池化层和全连接层。卷积层通过卷积核对输入图像进行特征提取，生成特征图；池化层则对特征图进行下采样，降低数据维度，同时保留重要信息；全连接层则负责将提取的特征进行整合，用于分类或回归任务。卷积神经网络在计算机视觉领域具有广泛的应用，如图像分类、目标检测、人脸识别等。通过训练大量的图像数据，卷积神经网络能够自动学习图像的特征表示，比传统的手工设计特征方法更加有效。此外，卷积神经网络也被应用于自然语言处理、语音识别等领域，并取得了显著的成果。总之，卷积神经网络是一种强大的深度学习模型，它通过模拟人类的视觉系统来处理图像和视频数据

基于VB+access实现的小区物业管理系统(系统+论文).zip: 基于VB+access实现的小区物业管理系统(系统+论文) 【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。

基于matlab实现的用于边角网平差，可实现平差、误差椭圆绘制、成果坐标输出等内附参考观测数据.rar: 基于matlab实现的用于边角网平差，可实现平差、误差椭圆绘制、成果坐标输出等内附参考观测数据.rar

ASP+ACCESS新闻发布系统(源代码+设计说明书).zip: ASP+ACCESS新闻发布系统(源代码+设计说明书).zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HtmlparseUtil.java

评论

发表评论

相关推荐

J2EE工具类：CalendarUtil .java

DESPlus+Base64+MD5Util

J2EE工具类：ClientSocketUtil.java&ServerSocketConnection.java

J2EE工具类：WebClient.java

J2EE工具类：WebHttpClient.java

J2EE工具类：DES.java

BeanUtils & PropertyUtils & MethodUtils类使用方法

HttpClient的用法

使用HttpClient做的一个简单的网络爬虫

J2EE工具类：WeatherUtil.java

Httpclient4.0 功能封装

apache commons-lang包

J2EE工具类：ArrayUtil.java

J2EE工具类：DataBaseUtil.java

J2EE工具类：PropertiesUtil.java

如何在首页加载数据？

J2EE工具类：StringUtil.java

J2EE工具类：DateUtil .java

J2EE工具类：NumberUtil.java

J2EE工具类：MoneyUtil.java小写钱转成大写钱

最近访客更多访客>>