从xml中提取所有的文本

原創

2018-09-02 07:16

今天遇到一个需求：从xml中提取所有的文本（或者说是 xml去标签）。写了一会儿，觉得可能别个兄弟也会遇到，就拿出来，看这样妥不妥~

（用dom4j进行解析的）

/**
	 * 提取分散在xml串中的文本
	 * @param xml 如："<a>这<span>是<span>我</span><span>的</span>标题</span>！</a>！！" => 这是我的标题！！！
	 * @return
	 */
	private String getTextFromXml(String xml) {
		Document doc;
		try {
			//保证有一个根节点  所以加了一个warp节点
			doc = DocumentHelper.parseText("<warp>"+xml+"</warp>");
			Element root = doc.getRootElement();
			clearElement(root);
			return root.getTextTrim();
		} catch (DocumentException e) {
			e.printStackTrace();
		}

		return null;
	}

	
	/**
	 * 把 所有子节点 删除掉，但保留节点下面的所有内容 
	 * @param ele
	 * @return
	 */
	private Text clearElement(Element ele) {
		List elepar = ele.content();
		Object tempObj;

		for (int i = 0; i < elepar.size(); i++) {
			tempObj = elepar.get(i);
			if (tempObj instanceof Element) {
				elepar.set(i, clearElement((Element) tempObj));
			}
		}
		
		return elepar.size() > 0 ? DocumentHelper.createText(ele.getTextTrim()) : DocumentHelper.createText("") ;
	}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

从xml中提取所有的文本

Power Automate Desktop 安装完，登录后老是提示one driver 错误

再谈23种设计模式（3）：行为型模式（学习笔记）

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

解決：easy ui form 表單提交 IE9 不執行回調函數

Oracle 大表更新

Springboot + websocket

Js RSA 加密、解密，Java RSA 加密、解密

SpringMVC +Spring+ SpringJDBC整合實例。

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結