php取頁面全部鏈接兼容GBK和utf8

原創

2020-07-02 17:55

最近要用到採集程序，需要取出整個頁面的鏈接，網上找到的一遇到中文鏈接就取不出完整的網址，自己改了一個，留個檔

<?php

function GetAllLink($string)
{
$r_=chr(0xa1);
$e_=chr(0xff);
//echo "<br>".$e_."<br>";
   $string = str_replace("\r","",$string);
   $string = str_replace("\n","",$string);

   $regex[url] = "((http|https|ftp|telnet|news):\/\/)?([a-z0-9_\-\/\.]+\.[][a-z0-9:;&#@=_~%\?\/\.\,\+\-]+[a-z0-9_\-\=]+[\u4e00-\u9fa5]+[\xa0-\xff]{0,})";
   $regex[email] = "([a-z0-9_\-]+)@([a-z0-9_\-]+\.[a-z0-9\-\._\-]+)";

$string = eregi_replace(">[^<>]+<","><", $string);

$string = eregi_replace("","", $string);

   $string = eregi_replace("<[^a][^<>]*>","", $string);

   $string = eregi_replace("<a([ ]+)href=([\"']*)mailto:($regex[email])([\"']*)[^>]*>","", $string);

   $string = eregi_replace("<a([ ]+)href=([\"']*)($regex[url])([\"']*)[^>]*>","\\3\t", $string);

   $output[0] = strtok($string, "\t");
   while(($temp = strtok("\t")))
   {
     if($temp && !in_array($temp, $output))
       $output[++$i] = $temp;
   }

return $output;
}

?>

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

php 主動關閉連接，並繼續執行後續程序

ob_start(); echo 'hello world'; $size_o = ob_get_length(); header("Content-Length: $size_o"); header('Connection: cl

2024-04-29 00:38:29

php7.4編譯

wget https://www.php.net/distributions/php-7.4.33.tar.gz ./configure --prefix=/usr/local/php7.4 --with-openssl --with-

2024-04-28 23:51:42

三十分鐘入門基礎Go（Java小子版）

前言 Go語言定義 Go（又稱 Golang）是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 開發的一種靜態、強類型、編譯型語言。Go 語言語法與 C 相近，但功能上有：內存安

2024-04-25 23:17:43

WebDriver庫：實現對音頻文件的自動下載與保存

1. 背景介紹音頻娛樂在當今社會已經成爲了人們日常生活中不可或缺的一部分。從早晨的音樂播放到晚上的電臺節目，音頻內容貫穿了我們的整個生活。隨着互聯網的普及和技術的進步，越來越多的音頻內容通過網絡平臺進行傳播和分享。網易雲音樂作爲中國領

2024-04-22 23:25:04

實操|基於OceanBase打造更穩定的Zabbix監控系統

近日，Zabbix和OceanBase成功完成了兼容認證。Zabbix支持OceanBase作爲後臺數據庫存儲配置數據和歷史數據，並且性能更優於MySQL數據庫。 Zabbix簡略系統拓撲圖： Zabbix Server和Zabbix

2024-04-17 22:13:13

搶先體驗：Zabbix 7.0全新Dashboard和MFA功能，增強可視化、安全性、靈活性！

（感謝本文作者張世宏，Zabbix開源社區專家，暱稱張思德。） Zabbix 7.0 beta2 已於2024年3月20日發佈，Zabbix 7.0 LTS預計於2024年Q2正式發佈。筆者立即下載體驗，感受是Zabbix 7.0在數據

2024-04-17 22:13:12

tp5命令行報 [BadFunctionCallException] not support: redis

tp5命令行報 [BadFunctionCallException] not support: redis 芝麻開門2015 於 2018-09-30 18:29:49 發佈閱讀量1.3w 收藏 1 點贊數分類專欄： php 版權 p

2024-04-17 00:27:13

Mac使用pecl安裝redis報錯:Warning:mkdir():File exists in System.php

在MAC下，PHP是使用brew安裝的最新版。接着安裝redis擴展。在路徑 /usr/local/Cellar/php/8.3.4/bin/ 下使用命令 pecl install redis 最後提示： Build process com

2024-04-11 21:26:42

關於轉義符 \ 在php正則中的匹配問題

今天做題遇到一個很經典的問題，記錄一下，先看一段代碼 <?php $str，=，"\\"; $pattern，=，"/\\/"; if(preg_match($partern,$str,$arr)) { ，，，，echo，"suc

2024-04-09 22:46:30

MySQL 主從 AUTO_INCREMENT 不一致問題分析

作者：vivo 互聯網數據庫團隊 - Wei Haodong 本文介紹了 MySQL5.7 中常見的replace into 操作造成的主從auto_increment不一致現象，一旦觸發了主從切換，業務的正常插入

2024-04-07 11:24:46

2024西湖論劍-phpems-代碼審計

前言 2024西湖論劍數據安全題，太菜了當時沒看明白，系統是phpems，修改了默認密碼，需要利用CVE登上去 CVE-2023-6654 ，菜鳥學習，大佬多指點 0x01環境搭建 https://phpems.net/index.p

2024-03-25 23:38:27

基於Redis實現基本搶紅包算法

簡介: 搶紅包是我們生活常用的社交功能, 這個功能最主要的特點就是用戶的併發請求高, 在系統設計上, 可以使用非常多的辦法來扛住用戶的高併發請求, 在本文中簡要介紹使用Redis緩存中間件來實現搶紅包算法, Redis是一個在內存中基

2024-04-17 11:18:19

Java中拼接字符串方式(+、StringBuilder/StringBuffer)分析

字符串是 Java 程序中最常用的數據結構之一。在 Java 中 String 類已經重載了"+"，字符串可以直接使用"+"進行連接，也可以用StringBuilder/StringBuffer（StringBuilder是J2SE5 及以

2024-04-09 21:31:20

Java中String 、StringBuilder 、StringBuffer 的區別

Java 平臺提供了兩種類型的字符串操作方式：String 和 StringBuffer/StringBuilder，它們都可以儲存和操作字符串，區別如下： String 是隻讀字符串，也就意味着 String 引用的字符串內容是不能被改

2024-04-08 09:31:31

JPA不識別MySQL的枚舉類型

1 枚舉好用嗎？數據字典型字段，枚舉比Integer好：限定值，只能賦值枚舉的那幾個實例，不能像Integer隨便輸，保存和查詢的時候特別有用含義明確，使用時不需要去查數據字典顯示值跟存儲值直接映射，不需要手動轉換，比如1在頁面上

2024-04-02 01:07:56

24小時熱門文章

druid數據源 xml配置

最新文章

最新評論文章