原创 c/c++常用宏、預編譯指令

別人博客上看的,先記錄,有時間在學習 c/c++宏、預編譯

原创 GitHub入門使用

代碼庫創建與上傳 註冊GitHub賬號 Create Repository 安裝mysysgit(windows),安裝後創建文件夾,進入文件夾 Github上克隆地址 將要上傳的項目拷貝至克隆目錄下 開始上傳

原创 Virustotal的使用

URL 發送並掃描URL 首先發送掃描一個url,要向https://www.virustotal.com/vtapi/v2/url/scan 發送一個http post 請求, 其中api 接受請求中的兩個參數: url:

原创 搜索引擎(一)-- 初識

搜索引擎是互聯網應用中技術含量最高的應用之一。用戶通過輸入查詢詞,搜索引擎返回搜索結果,應用形式看似簡單,但如何從百億量的互聯網數據數據中準確且高效的獲得用戶想要的搜索信息,也是不小的挑戰。因此,“更全、更快、更準”便是搜索引擎技術的最終

原创 馬爾科夫過程

1. 全概率公式 用途說明:對複雜事件A的概率求解簡化爲各情況下發生簡單事件的概率之和 定義:完備事件組B1、B2、B3…….Bn,事件相互獨立,且任意P(Bi)>0,則事件A發生的概率: P(A) = P(A|B1)P(B1) +

原创 搜索引擎(二)-- 技術架構

搜索引擎要在保證搜索結果質量的前提下,對百億計的海量網頁進行抓取、存儲、處理。優秀的搜索引擎需要複雜的架構和算法支撐上述功能並對用戶的請求快速而準確的響應。搜索引擎從宏觀上可看成兩大模塊。後臺計算系統和前臺計算系統。搜索引擎技術架構圖如圖

原创 搜索引擎(四)-- 分佈式爬蟲

分佈式爬蟲是搜索器的核心技術,面對海量網頁,只有分佈式爬蟲纔可能高效抓取數據。 大型分佈式系統分爲分佈式數據中心、分佈式抓取服務器及分佈式爬蟲程序。 整個爬蟲系統由多個分佈式數據中心共同構成,每個數據中心由多臺高速網絡連接的分佈式抓取服

原创 PE文件

PE文件初識 PE(Portable Execute)文件是Windows下可執行文件的總稱,wiki百科[12]將PE文件描述爲“可移植的可執行文件”,是一種主要使用在32位和64位Windows操作系統上的文件格式。常見的PE文件

原创 Windows API HOOK

HOOK技術是當前用於Windows API攔截的主要技術,許多應用程序的功能都以HOOK技術爲基礎核心技術進行擴展實現。 以屏幕取詞爲例,通過安裝鼠標鉤子,攔截TextOut()、ExtTextOut()等函數,當應用程序收到WM_P

原创 Ubuntu安裝Sublime並配置python開發環境

官網下載相應版本的安裝包 ubuntu版本查看命令:sudo uname –m i868 : 32bit x86_64 : 64bit 更多信息: sudo uname –s 顯示內核名字s sudo uname –r 顯

原创 python開發常用的python模塊及安裝方法

更詳細工具包參見 轉載自:www.cnblogs.com/hongten/p/hongten_python_more_modules.html adodb:我們領導推薦的數據庫連接組件 bsddb3:BerkeleyDB的連接組件

原创 搜索引擎(三)-- 搜索器

通用爬蟲工作原理與特性 搜索器是搜索引擎中很關鍵也是很基礎的構件。通常利用網絡爬蟲技術實現搜索器的功能。 不同應用,爬蟲系統的實現方式各有千秋,但其具有通用的特性及流程框架。通用爬蟲框架圖如圖3-1所示。 確定種子URL,將其放入

原创 Python 自然語言處理學習筆記(一)-- 軟件安裝需求

Python自然語言處理相關工具安裝說明 利用pip安裝 下載一個名叫ez_setup.py的python文件 wget https://bootstrap.pypa.io/ez_setup.py 安裝setuptools sud

原创 Python自然語言處理--處理原始文本

NLTK API 導入工具包 >>from __future__ import division >>import nltk,re,pprint 英文分詞 >>raw = "I am a student......" >>tokens =

原创 動態鏈接庫與遠程線程注入技術初識

動態鏈接庫 動態鏈接庫(dynamic-link library,DLL)是Windows操作系統提供的一種可執行文件,包含了所有Windows應用程序編程接口(Application Programming Interface, A