原创 “爲所欲爲”的匿名類:觀察者篇

通曉編程語言的基本知道,按作用範圍(或者說“域”),變量有局部或全局變量之分。域也可以說是“context”。如果按源代碼文件來分,則有內部和外部的context域之分。弄清楚context域的意義,才有助於理解編程語言的設計作者的思想,

原创 HTML Tag Selector標籤選擇器設計(手稿PFC020512)

(手稿PFC020512) 用慣了xpath、scrapy或jsoup這類HTML 文檔解析器,今天決定試試實現其tag selector標籤選擇器。 HTML是一個規範的文檔。一般來說,HTML文檔是對稱閉合的,跟XML文檔很相似,但不

原创 Question7:  針對詭異的HTML編碼錯亂問題個例

偶然發現個別特俗的HTML編碼錯亂的例子。字符集編碼設置在HTML header和response headers,charset是GB2312,啓用gzip壓縮。 通過代碼獲取原始數據流: >>from self_defined_

原创 Question6:什麼定義網頁的charset

這是一個簡單的問題,但有時卻又是奇怪的。這其實不能算一個問題,而是一系列的。先來看幾組實例。 實例1   實例2       實例3       實例4       實例5       實例6       實例7

原创 Question5:Windows10的nginx + php配置問題

Windows10的nginx + php配置問題 原本安裝配置nginx和php沒啥好說的問題(之前也沒有遇到過)。最近開始重新安裝配置新版本的出現一些“坑”。任何面向過程的“小問題”都是無法避開的大問題。所以開始關注這些“小問題”。

原创 Question4:編碼亂碼問題--如何獲取文本的charset字符集

前面提到Question3:獲取指定網址的HTML文本,裏面有個問題:如何識別文本的charset字符編碼?網上搜索資料一番,找到一些相關的blog博文: csdn weixin_33924220:Python 編碼轉換與中文處理 csm

原创 Question3:獲取指定網址的HTML文本

 有時候在線獲取網址頁面出錯或事先處理目標,手動調試有些麻煩。多次敲擊重複基礎代碼有些耗費時間,所以將代碼整理成module模塊的形式。每次使用時,通過import引入即可,往裏傳入參數即可,很是方便。其中有些細節需要注意。以下是代碼:

原创 Question1: 從文本中挑選時間大於閾值的記錄

import re pattern="([^/: 0-9]*)[ ]([^ ]*)[ ]([^ ]*)[ ]([^ ]*)[ ]([^ ]*)[ ]([0-9]*)[']([0-9]*)[\"]" datas=['''李秀錦 2019/

原创 Question2:限定有效精度浮點數或整型

  ''' 求不爲0的9爲數字,只能一個小數點,小數點後面只能2位數的表達式 首先這個數字不能爲0 可以以0開頭,比如0.1也可以0.01,但是隻能一個小數點 小數點前最多9位數,小數點後最多2位數 比如:123456789.12

原创 劃字分詞:統計字數的思路

分詞是一項挺有難度技術的工作,或者說是門“體力活”。箇中意味很難三言兩語道盡。如果想減少重複體力勞動,把它做成腦力勞動,精準度是個糾結的問題;而若想無限接近百分百的準確度,那麼除了耗費一些腦力,大量重複體力勞動是少不了的。進而想更加全面的

原创 Windows下執行不打包的桌面級python代碼(desktop program)不顯示DOS窗口的辦法

大多時候,Windows桌面級python代碼打包成exe程序後,是沒有那個“顯眼”烏漆嘛黑的DOS窗體。但有時,“懶”得打包python代碼,且直接執行,不想看到DOS窗口怎麼辦? 仔細思考,DOS窗口是Windows操作系統關聯的,所

原创 雲服務器的一個“bug”:遭遇DDoS

說到互聯網安全,不得不提及有名的拒絕服務攻擊--DoS(Denial of Service),而最受關注的是分佈式的DoS--DDoS(Distributed)。簡單來說,DoS攻擊者利用TCP/IP協議中“三次握手”的連接機制漏洞,向服

原创 互聯網興起:網站鏡像--website mirrors

網站鏡像應該是因特網運用最廣泛的技術之一。關於網站鏡像的定義,網絡搜索引擎搜出來一大堆,但不全面不清晰。很多人對網站鏡像都不太瞭解,然而互聯網的繁榮興盛卻與它息息相關。 網站鏡像(Website mirrors),按字面的意思就可以猜個究

原创 筆記:PHP7使用mysqli(一)

任何編程語言連接數據庫都需要一定的協議,協議的主要內容包括數據庫類型、數據庫服務器地址(端口)、用戶名及密碼等,比如.NET的ODBC和OLEDB,Java的JDBC等。操作數據庫前,需要成功按照該協議通過數據庫服務器驗證的連接。PHP7

原创 完整有效的調試機制:有關Redis的一個bug引發的猜想

最近在某在線視頻網站上無意看到一個bug。仔細查看debug輸出實在是太“震撼”。 /home/*/*redis/src/Client.php ...(省略)... Arguments "MISCONF Redis is configu