【143】Java获取HTML代码中视频video标签的URL地址

创景

用户使用HTML富文本编辑器编辑文章上传到服务器。文章中可以嵌入视频，视频使用了H5的video 标签，我需要提取出视频的URL地址，用于做视频鉴黄等操作。

代码实现

本例子一共用了三个文件，分别是 RegexUtils.java、VideoTagUtils.java 和 Main.java。其中 RegexUtils 类封装了正则表达式的操作。VideoTagUtils 提取视频URL。Main 类包含main方法，用于测试。

RegexUtils.java

package blog141;

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 正则表达式工具类
 * @author zhangchao
 */
public final class RegexUtils {
    /**
     * 获得匹配正则表达式的内容
     * @param str 字符串
     * @param reg 正则表达式
     * @param isCaseInsensitive 是否忽略大小写，true忽略大小写，false大小写敏感
     * @return 匹配正则表达式的字符串，组成的List
     */
    public static List<String> getMatchList(final String str, final String reg, final boolean isCaseInsensitive) {
        ArrayList<String> result = new ArrayList<String>();
        Pattern pattern = null;
        if (isCaseInsensitive) {
            //编译正则表达式,忽略大小写
            pattern = Pattern.compile(reg, Pattern.CASE_INSENSITIVE);
        } else {
            //编译正则表达式,大小写敏感
            pattern = Pattern.compile(reg);
        }
        Matcher matcher = pattern.matcher(str);// 指定要匹配的字符串
        while (matcher.find()) { //此处find（）每次被调用后，会偏移到下一个匹配
            result.add(matcher.group());//获取当前匹配的值
        }
        result.trimToSize();
        return result;
    }

    /**
     * 获取第一个匹配正则表达式的子串
     * @param str 完整字符串
     * @param reg 正则表达式
     * @param isCaseInsensitive 是否忽略大小写，true表示忽略，false表示大小写敏感。
     * @return 第一个匹配正则表达式的子串。
     */
    public static String getFirstMatch(final String str, final String reg, final boolean isCaseInsensitive) {
        Pattern pattern = null;
        if (isCaseInsensitive) {
            //编译正则表达式,忽略大小写
            pattern = Pattern.compile(reg, Pattern.CASE_INSENSITIVE);
        } else {
            //编译正则表达式,大小写敏感
            pattern = Pattern.compile(reg);
        }
        Matcher matcher = pattern.matcher(str);// 指定要匹配的字符串
        if (matcher.find()) {
            return matcher.group();
        }
        return null;
    }
}

VideoTagUtils.java

package blog141;

import java.util.ArrayList;
import java.util.List;

/**
 * 处理视频HTML标签的工具类
 * @author zhangchao
 */
public final class VideoTagUtils {

    /**
     * 从html代码中，获得指定标签的指定属性的取值
     * @param html  HTML代码
     * @param tagName  指定的标签名称
     * @param propertyName 指定的属性名称
     * @return
     */
    public static final List<String> listTagPropertyValue(final String html, final String tagName, final String propertyName) {
        // 结果集合
        ArrayList<String> result = new ArrayList<String>();
        // 找出HTML代码中所有的tagName标签
        List<String> list = RegexUtils.getMatchList(html, "<" + tagName + "[^>]*>", true);
        // 循环遍历每个标签字符串，找出其中的属性字符串,比如 src=....
        for (String tagStr : list) {
            // 去掉标签结尾的/>，方便后面 src 属性的正则表达式。
            // 这样可以适应  <video src=http://www.yourhost.com/xxx>  这样的标签
            if (tagStr.endsWith("/>")) {
                tagStr = tagStr.substring(0, tagStr.length() - 2);
                tagStr = tagStr + " ";
            }
            // 去掉标签结尾的>，方便后面匹配属性的正则表达式。
            // 这样可以适应  <video src=http://www.yourhost.com/xxx>  这样的标签
            else if (tagStr.endsWith(">")) {
                tagStr = tagStr.substring(0, tagStr.length() - 1);
                tagStr = tagStr + " ";
            }
            // 去掉字符串开头的 <video 或 <source
            tagStr = tagStr.substring(1 + tagName.length());
            tagStr = " " + tagStr;

            // 取出属性的值
            String regSingleQuote = "^" + propertyName + "='[^']*'"; // 使用单引号
            String regDoubleQuote = "^" + propertyName + "=\"[^\"]*\""; // 使用双引号
            String reg = "^" + propertyName + "=[^\\s]*\\s"; // 不使用引号
            int index = 0;
            int length = tagStr.length();
            while (index <= length) {
                String subStr = tagStr.substring(index);
                String str = RegexUtils.getFirstMatch(subStr, regSingleQuote, true);
                if (null != str) {
                    // 往后跳过已经匹配的字符串。
                    index += str.length();
                    String srcStr = str;
                    srcStr = srcStr.trim();
                    // 去掉 src=
                    srcStr = srcStr.substring(propertyName.length() + 1);
                    // 去掉单引号
                    srcStr = srcStr.substring(1);
                    srcStr = srcStr.substring(0, srcStr.length() - 1);
                    // 结果中加入图片URL
                    result.add(srcStr);
                }
                else if ((str = RegexUtils.getFirstMatch(subStr, regDoubleQuote, true)) != null) {
                    // 往后跳过已经匹配的字符串。
                    index += str.length();
                    String srcStr = str;
                    srcStr = srcStr.trim();
                    // 去掉 src=
                    srcStr = srcStr.substring(propertyName.length() + 1);
                    // 去掉双引号
                    srcStr = srcStr.substring(1);
                    srcStr = srcStr.substring(0, srcStr.length() - 1);
                    // 结果中加入图片URL
                    result.add(srcStr);
                }
                else if ((str = RegexUtils.getFirstMatch(subStr, reg, true)) != null) {
                    // 往后跳过已经匹配的字符串。
                    index += str.length();
                    String srcStr = str;
                    srcStr = srcStr.trim();
                    // 去掉 src=
                    srcStr = srcStr.substring(propertyName.length() + 1);
                    // 结果中加入图片URL
                    result.add(srcStr);
                }
                else if ((str = RegexUtils.getFirstMatch(subStr, "^[\\w]+='[^']*'", true)) != null) {
                    // 往后跳过已经匹配的字符串。
                    index += str.length();
                }
                else {
                    index ++;
                }
            }
        } // end for (String tagStr : list)
        result.trimToSize();
        return result;
    }


    /**
     * 从html代码中找出video标签的图片路径
     * @param html  HTML代码
     * @return  字符串列表，里面每个字符串都是图片链接地址
     */
    public static List<String> listVideoSrc(final String html) {
        // 结果集合
        ArrayList<String> result = new ArrayList<String>();
        if (null == html || html.length() == 0 || html.trim().length() == 0) {
            return result;
        }
        List<String> videoSrcList = listTagPropertyValue(html, "video", "src");
        List<String> sourceSrcList = listTagPropertyValue(html, "source", "src");
        if (null != videoSrcList) {
            result.addAll(videoSrcList);
        }
        if (null != sourceSrcList) {
            result.addAll(sourceSrcList);
        }
        result.trimToSize();
        return result;
    }
}

Main.java

package blog141;

import java.util.List;

public final class Main {

    public static void main(String[] args) {
        String html = "<p>图图</p><video style='margin-top:5px' width=100% webkit-playsinline=true playsinline=true\n" +
                " controls poster='https://img.yiqilaiwang.com/lmrDJ01geGORjvKIAGbEWerQ9mMh?vframe/jpg/offset/0'>\n" +
                " <source aasrc='https://img.yiqilaiwang.com/lmrDJ01geGORjv' \nsrc=\"https://img.yiqilaiwang.com/lmrDJ01geGORjvKIAGbEWerQ9mMh\"type=video/mp4></video>" +
                "<Video style=\"width:100%\"src=\"/aaa/aaa.mp4\"></Video";
        List<String> list = VideoTagUtils.listVideoSrc(html);
        for (String str : list) {
            System.out.println(str);
        }
    }
}

程序运行结果：

/aaa/aaa.mp4
https://img.yiqilaiwang.com/lmrDJ01geGORjvKIAGbEWerQ9mMh

【143】Java获取HTML代码中视频video标签的URL地址

创景

代码实现

EXCEL中下拉菜单中添加新选项或者删除选项

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

Python 爬虫：Spring Boot 反爬虫的成功案例

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

Java中止线程的方式

[转帖]Oracle Exadata 学习笔记之核心特性Part1

《最新出炉》系列入门篇-Python+Playwright自动化测试-43-分页测试

HTTP协议相关文档

【143】Java獲取HTML代碼中視頻video標籤的URL地址

【142】Java獲取HTML代碼中的圖片URL地址

【141】Java獲得正則表達式匹配的內容

【137】MySQL5.7創建只讀用戶

【138】七牛雲兩個賬戶之間數據遷移

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結