原创 python用三種方式實現生產消費模型(進程,線程,協程)

最近用kafka用的比較多,因此對生產消費模型有了不小的興趣,就想着,如果在沒有搭建kafka的情況下,該怎麼實現生產消費模型呢? 前菜 進程:是系統進行資源分配的最小單位,它是程序執行時的一個實例。程序運行時系統就會創建一個

原创 使用python將doc文件轉爲utf8編碼格式的txt

最近花了點時間看了會doc的轉換,果然官方文檔最好用,代碼如下: import os import sys import fnmatch import win32com.client PATH = os.path.abspath

原创 docker命令速查

docker 在打包環境方面可以說的上是很nice的一個工具了,而且現在很多大公司在訓練深度學習模型方面都容器化了,所以記住docker的常用命令還是挺必要了,好記性不如爛筆頭,走起。 Docker簡介 docker 的生命週

原创 sentencePiece入門小結

環境搭建 1.安裝C++源碼版 step1 安裝環境依賴 ubuntu系統: sudo apt-get install cmake build-essential pkg-config libgoogle-perftools-d

原创 豆瓣最受歡迎的影評爬蟲(第一個爬蟲撒花!)

-- coding: utf-8 -- from bs4 import BeautifulSoup import requests import urllib import codecs import re import

原创 使用python將excel單元格中指定文字加粗標紅

import xlsxwriter out_path = 'test.xlsx' workbook = xlsxwriter.Workbook(out_path) worksheet = workbook.add_workshee

原创 python 拼接誤換行句子代碼

有些文本在解析出來的時候,換行出現了問題,比如:“今天天氣很好啊\n所以我出來玩了。”因此我們需要將誤換行的句子拼接起來。 一開始打算是用遞歸的思想去做,後面發現python的list也可以用pop,就直接pop更方便了,時間

原创 python 實現字典排序(多條件排序規則,含升序降序)

在現實場景中,存在多條件的排序規則,如,在一批學生中,先按照成績降序排序,再按照出生日期降序(出生日越晚的年齡越小,越聰明),最後再按照學號升序排列。本文實現兩種排序方法,以供參考。 測試數據: test_data = [{'

原创 mongoDB如何複製collection裏的數據到另一個collection方法總結

mongoDB的可以直接複製數據庫,但是對於數據庫裏的表卻沒有直接的複製語句。在項目中遇到數據放錯collection了情況就很棘手,現在將方法總結如下: 1.利用foreach方法在shell裏直接運行 db.test(複製源

原创 簡書首頁推薦文章文字爬取,用txt保存

發現簡書上有些文章還挺不錯,頁面如下: 然後就手癢寫了幾行代碼,用xpath匹配的方法將首頁推薦的文章的內容抓了下來,它有一個“顯示更多的按鈕”,每次click一下,就會再出現一些內容,這次我設置的是抓了4次更多。 之後就是保

原创 使用SimHash算法實現千萬級文本數據去重插入(python版代碼)

前言,最近在搞大量數據插入MySQL的時候悲催的發現速度越來越慢,因爲我的數據來多個源,使用流式更新,而且產品要求在這個表裏面不能有數據重複,劃重點!衡量數據是否重複的字段是文本內容,字段類型是text,…那麼問題來了,如何在千

原创 python中使用正則表達式去除中文文本多餘空格,英文之間的保留

需求 在pdf轉爲文本的時候,經常會多出空格,影響數據觀感,因此需要去掉文本中多餘的空格,而文本中的英文之間的正常空格需要保留,輸入輸出如下: input:我今天 賺了 10 個億,老百姓very happy。 output:我今天賺

原创 windows conda虛擬環境下配置cx_Oracle踩坑小結

前言:如果說本來安裝cx_Oracle就是一個歷經千辛萬苦的過程,那麼我這次安裝的過程簡直是巨坑無比了,現總結如下。 限制環境 系統:windows 64 python:在anaconda3下的創建的虛擬環境,2.7版本,64位

原创 使用jmeter進行壓力測試小結

前言:之前在多臺機器上佈置了docker,然後用nginx做反向代理,現在用jmeter對搭載的nginx服務器進行壓力測試,看看性能如何。 jmeter簡介 JMeter作爲一款廣爲流傳的開源壓測產品,最初被設計用於Web應用測

原创 PyText入門(環境搭建和demo實現)

簡介 12月15日,facebook宣佈開源PyText NLP框架。 PyText是一種基於深度學習的NLP建模框架,基於PyTorch 1.0構建。它可以連接 ONNX 和 Caffe2,藉助 PyText,AI 研究人員和工程師