原创 jieba分詞停止詞

! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .數 .日 / // 0 1 2 3 4 5 6 7 8 9 Q W E R T Y U I

原创 互聯網時代的社會語言學:基於SNS的文本數據挖掘

互聯網時代的社會語言學:基於SNS的文本數據挖掘 http://www.matrix67.com/blog/archives/5044

原创 CentOS查看CPU個數

查看邏輯cpu個數:cat /proc/cpuinfo | grep "processor" | wc -l 查看物理cpu個數:cat /proc/cpuinfo | grep "physical id" | sort | uniq |

原创 稀疏矩陣動態增加行

""" 稀疏矩陣動態增加行 原理:創建一個1行n列的新矩陣與原矩陣合併-->tocsr() 成爲新的稀疏矩陣.動態增加的目的達成 """ import sys import scipy.sparse as ss import nump

原创 Python提取文本tf、idf

"""python提取文本的tfidf特徵""" import math from collections import Counter # 1.語料庫 corpus = [ 'this is the first docum