原创 NLPIR 詞性標註的兼容設置

pynlpir.segment("手機系統流暢,外觀漂亮,相機好,缺點是電池不太經用",pos_names=None) pos_names默認是parent 設置pos_names爲None則就是熟悉的北大計算所詞性標註集 結果輸出爲:手

原创 maven tomcat插件 字符編碼設置

<build> <plugins> <plugin> <groupId>org.apache.tomcat.maven</groupId> <artifactId>tomcat7-maven-plugin</ar

原创 RedisCluster 安裝

之前在研究redis的高性能和高可用性時,經歷了: 單機redis->redis主從->ShardJedis 客戶端分片->Redis Sentinel 主從切換高可用->Redis Cluster 其中簡單瞭解了一下使用中間件的方

原创 基於Word2Vec Doc2Vec 進行文本情感分類

這篇文章介紹了使用Word2Vec和Doc2Vec進行文本情感分類,等後面有時間了再翻譯一下: Sentiment analysis is a common application of Natural Language Pr

原创 斯坦福大學深度學習與自然語言處理第一講:引言

斯坦福大學在三月份開設了一門“深度學習與自然語言處理”的課程:CS224d: Deep Learning for Natural Language Processing,授課老師是青年才俊 Richard Socher,他本人是德國

原创 Python pandas基礎: Series和DataFrame的簡單介紹

一、pandas 是什麼 pandas 是基於 NumPy 的一個 Python 數據分析包,主要目的是爲了數據分析。它提供了大量高級的數據結構和對數據處理的方法。 pandas 有兩個主要的數據結構:Series 和 DataFram

原创 Linux寫時拷貝技術(copy-on-write)

Linux寫時拷貝技術(copy-on-write) 源於網上資料 COW技術初窺:       在Linux程序中,fork()會產生一個和父進程完全相同的子進程,但子進程在此後多會exec系統調用,出於效率考慮,linux中引

原创 Linux終端關閉後臺進程也結束原因分析和nohup的使用

Windows和Linux的遠程連接(都叫做遠程連接吧)不同: 1)Windows遠程連接後,如果在遠程機器上運行某個程序,完全可以退出連接後過一段時間再連接到那臺機器上看有沒有結束,即Windows的遠程連接在不經過任何處理的情況下

原创 sed命令

簡介 sed 是一種在線編輯器,它一次處理一行內容。處理時,把當前處理的行存儲在臨時緩衝區中,稱爲“模式空間”(pattern space),接着用sed命令處理緩衝區中的內容,處理完成後,把緩衝區的內容送往屏幕。接着處理下一行,這樣

原创 MYSQL 分組取前N條數據

經常看到問題,如何取出每組的前N條記錄。方便大家參考於是便把常見的幾種解法列出於下。問題:有表 如下,要求取出各班前兩名(允許並列第二) Table1+----+------+------+-----+ | id |SName |ClsN

原创 python csv 格式文件 中文亂碼問題解決方法

我遇到的問題是使用pandas的DataFrame to_csv方法實現csv文件輸出,但是遇到中文亂碼問題,已驗證的正確的方法是: df.to_csv("cnn_predict_result.csv",encoding="utf_

原创 對海量小文件存儲優化的一些理解和TFS介紹

在研究圖片服務器問題時,瞭解到現在很多大公司基本上都是用分佈式文件系統來存儲海量小文件,比如Facebook有haystack,淘寶有TFS,京東有JFS。最近在研究TFS,結合之前學習的linux下的inode相關知識,瞭解到在ext文

原创 shell腳本中執行時提示“沒有那個文件或目錄”的解決辦法

故障現象:在終端直接cd /var正常,在shell腳本中執行則報錯。原因是腳本是在windows平臺下寫的,換行符與linux不同,造成腳本不能正確執行 出現bad interpreter:No such file or d

原创 NLPIR RuntimeError: NLPIR function 'NLPIR_Init' failed 解決方案

運行出現的問題: [python] view plain copy Traceback (most recent call last):       File "<stdin>", line 1, in <mo

原创 python處理文件首行讀取問題 utf-8 BOM

文件有utf-8 bom和utf-8無bom格式 python在讀取文件首行數據時,如果是utf-8 bom格式的文件,則首行讀取的是有bom信息的,和utf-8 無bom格式的文件是不同的 可以用編輯器另存爲utf-8 withou