原创 ElasticSearch - (1)中文分詞

文章目錄1. 中文分詞2.中文存在的問題3、常見的分詞工具4.ElasticSearch的ik分詞 1. 中文分詞 在中文自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。英文中的單詞具有詞的意義,可作爲自然語言處理的最小

原创 數據的批處理和流處理

1.批處理 新到達的數據元素被收集到一個組中。整個組在未來的時間進行處理,批量處理一定時間段,一定數量或者一定大小的數據組。 歷史上,絕大多數數據處理技術都是爲批處理而設計的。傳統的數據倉庫和Hadoop是專注於批處理的系統的兩

原创 (二)Django框架路由參數

django解析路由的流程 項目的urls.py的文件中包含的是具體應用的urls 應用中的urls.py文件 包含的是視圖函數的對應關係 路由解析的順序, 從上到下,有可能後面的被前面的屏蔽 瀏覽器中, url要以/ 結尾, 不

原创 Selenium的使用(超詳細)

文章目錄1.selenium的安裝和瀏覽器驅動2.webdriver對象和屬性options設置3. 發起請求4.查找元素5. 獲取cookie6.頁面/frame/歷史記錄切換7.操作鼠標或者鍵盤8.等待頁面加載完成9.提交JS

原创 ElasticSearch - ()使用Python單例模式批量寫入數據

文章目錄1.批量寫入2.單例模式寫入3.多線程寫入,使用線程鎖 1.批量寫入 如果有大量的數據,一次插入一條肯定效率太慢,我們可以使用elasticsearch模塊導入helper,通過helper.bluk 來批量處理大量的數

原创 構建用戶畫像

文章目錄簡介概述1 整理流程2 標籤體系3 構建用戶畫像人口屬性畫像,興趣畫像,地理位置畫像4 用戶畫像評估使用 簡介 在大數據領域,用戶畫像的作用遠不止於此。用戶的行爲數據無法直接用於數據分析和模型訓練,我們也無法從用戶的行爲日

原创 Django數據庫MySQL的操作

文章目錄1.數據庫的配置2.數據庫模型類models3.設置好models類後創建數據庫進行遷移操作4.數據操作4.1 增加數據4.2 查看數據4.3 修改數據4.4 刪除數據5.任務線程數據庫連接失效處理(高併發) 1.數據庫的

原创 MySQL數據庫的存儲原理及特點?

數據庫的存儲過程 Mysql儲存過程是一組爲了完成特定功能的SQL語句集,經過編譯之後存儲在數據庫中,當需要使用該組SQL語句時用戶只需要通過指定儲存過程的名字並給定參數就可以調用執行它了,簡而言之就是一組已經寫好的命令,需要使用

原创 centos從零開始配置的過程

1. 配置靜態IP lo是迴環IP,ens33是靜態IP,沒有IP地址這裏我們需要配置 2. 查看虛擬機網卡的配置信息 點擊虛擬機左上角的編輯 —> 虛擬機網絡編輯器 然後確定 保存 進入centos ip addr 查

原创 windows10環境 VMware15虛擬機安裝Centos7

1.centos鏡像的下載 下載鏡像的網站 阿里雲的centos鏡像網站 點擊進去後 選擇centos版本 我選的是最新的centos7版本 - 不同版本之間的差別, 我選擇的是第一個 2.使用VMware安裝鏡像

原创 python3怎麼理解生成器和迭代器?

判斷一個對象是否是迭代對象 from collections import Iterble isinstance([], Iterble) 可迭代對象的本質是, 提供一箇中間人,遍歷的時候, 需要數據的時候, 獲取這個對象

原创 新浪微博爬蟲-抓取用戶發佈的微博

1.尋找接口 在瀏覽器中訪問微博尋找接口 請求 https://weibo.com/yangmiblog?profile_ftype=1&is_all=1#_0 楊冪發佈所有的微博列表頁,每個微博用戶唯一不同的是 yangmib

原创 Django+uwsgi的配置

1. uwsgi加載配置文件 可以使用 ini 文件,json 文件,xml 文件, YAML 文件, uwsgi --ini xxx.ini 2.常見的配置規則 [uwsgi] ;#使用nginx連接時使用,Django程序

原创 樂觀鎖和悲觀鎖學習和應用

文章目錄一. 樂觀鎖和悲觀鎖概念1.1 悲觀鎖1.2 樂觀鎖二. 樂觀鎖和悲觀鎖的使用場景三. 樂觀鎖和悲觀鎖的實現例子 一. 樂觀鎖和悲觀鎖概念 1.1 悲觀鎖 總是假設最壞的情況,每次讀取數據的時候總是認爲其他線程會修改,所

原创 Lambda架構和Kappa架構

Lambda架構 Lambda系統架構定義了一套明確的架構原則,如果要建立一個強大的和可擴展的數據系統,必須服從下面的架構圖。 Lambda架構的原則 人爲容錯性:系統易數據丟失或者數據損壞,大規模時可能是無法挽回的 數據不