原创 使用find在目錄中查找文件的常用用法

有時候要找幾年前存在電腦裏的文件,不但位置忘記了,就連文件名都忘記的差不多了,怎麼辦?可以使用linux或者cygwin下的find命令,只要對文件名還有一些印象,就可以。 1. 使用正則表達式。正則表達式實在是字符串匹配最好用的東東了

原创 如何在grep和sed命令中使用擴展的正則表達式

對於grep,可以使用egrep命令來替代,那麼就支持擴展的正則表達式了。 對於sed,只要加上參數-r就可以支持擴展的正則表達式了。 由於平時寫python用的正則表達式大部分都是擴展的正則表達式,所以,出於習慣,我喜歡更自由的擴展的正

原创 [mercurial] web server搭建過程及相關問題的解決

最近,有一項工作需要和實習生一起完成。該工作主要是檢查數據,因此,文本文件很多,需要臨時進行版本控制一下。由於不是很熟悉ssh的方式,於是採用最簡單的http的方式搭建Repo進行管理。 軟件準備:tortoisehg, conemu 軟

原创 遍歷文件夾內所有文本文件,查找含有某種模式的行,合併到一個文件

例子:當前文件夾下有一堆文本文件,其內容的格式都是如下: snme0001 我心情很好啊! 句子ID和文本之間是tab。 我想把文本不含英文的行都抽取出來放到一個新的文件中,比如"abc.txt“。 grep -r '[[:alpha:

原创 python中re的常見用法總結(update)

1. look_ahead or look_after: i) 當且僅當某類字符串之前符合某條件時,才把該字符串替換爲另一類字符串。     如:當“$51%r" 前爲 |, -, % 或者-*時,把其替換爲a51%r.        

原创 python中整數,浮點數和字符串的轉換

一. int() 1.  將符合整數格式的字符串轉換爲整數。 2.  將浮點數轉換爲整數,只是簡單的取整,並非四捨五入。 如: int("589") == 589          int(4.56) == 4 二. float()

原创 使用kaldi進行語音自動切分、模型訓練和強制對齊

這裏,主要介紹一下網上的教程,經過一步步實驗,對某些可能讓人容易誤解的地方進行註釋。 1. 只有原始錄音和音素標註,進行初次以及多輪的單音素、三音素模型訓練,並且基於這些模型進行語音切分: http://pages.jh.edu/~ech

原创 使用swig包裝C或C++源代碼在windows下用命令行編譯並用distutils打包供python使用

一、文件:手寫了三個文件: 1. add_function.h: float add_function(float, float); 2. add_function.c: float add(float

原创 在windows使用py2exe打包程序

直接貼出我用的一個,備忘。注意哪些exlude和include,這些是查了資料之後才知道要添加的內容,不然build不成功。目前,原理已經忘記,先這樣用着。 #!/usr/bin/env python # -*- coding:utf8

原创 openproj不能修改日期的原因分析與解決

問題:先使用openproj指定計劃,安排人手在規定時間內完成某件事情,結果在實施過程中,由於各種情況,實際完成的時間很可能與計劃時間不同,或快或慢。那麼我們需要更改時間,記錄已經完成的部分,同時修改接下來的事情。但是在openproj中

原创 搭建使用numpy, scipy, scikit-learn的環境

在windows上安裝和更新scipy是很痛苦的。而要安裝scikit-learn又必須安裝好指定版本的numpy和scipy。所以,很頭疼。我本來使用的是activepython,用pypm來管理package,不過pypm更新的太慢了

原创 linux下用grep查找文件夾內含有某字符串的文件

有時候,需要查看哪些文件含有指定的字符串,然後拷貝或者刪除。可以使用grep或者egrep來實現。 比如,查找含有\TE\的文件名,只列出文件名 grep -rnl "\\\\TE\\\\" * *表示當前目錄的所有文件和子文件夾。所以,

原创 awk循環處理文本進行統計

由於awk對於標準格式文本可以快速分割,因此我有時候懶得用python再去寫更長的腳本去做一些簡單的統計和打印工作。 比如,現有文本爲對一些符號的分類: pre_groups:CH_DTL = z c s ì pre_groups:CH_

原创 svn:總使用最新數據忽略個人修改

來源:http://stackoverflow.com/questions/3709197/is-it-possible-to-always-force-overwrite-local-changes-when-updating-from

原创 給anaconda設置代理來訪問包來源

公司爲了安全,網絡連接外網需要設置代理。因此,如果不設置代理,將無法訪問anaconda等python包的來源。代理設置有兩種方法: 1. 先使anaconda允許pip來訪問包管理,然後在pip命令中加入代理的參數。 1. 允許pip訪