Python-smallseg分詞

原創

2018-08-23 11:49

#encoding=utf-8
#import psyco
#psyco.full()


words = [x.rstrip() for x in open("main.dic",mode='r',encoding='utf-8') ]
from smallseg import SEG
seg = SEG()
print('Load dict...')
seg.set(words)
print("Dict is OK.")


def cuttest(text):
    wlist = seg.cut(text)
    wlist.reverse()
    tmp = " ".join(wlist)
    print(tmp)
    print("================================")
        
if __name__=="__main__":
    cuttest("這是一個伸手不見五指的黑夜。我叫孫悟空，我愛北京，我愛Python和C++。")
    cuttest("我不喜歡日本和服。")
    cuttest("雷猴迴歸人間。")
    cuttest("工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作")
    cuttest("我需要廉租房")
    cuttest("永和服裝飾品有限公司")
    cuttest("我愛北京天安門")
    cuttest("abc")
    cuttest("隱馬爾可夫")
    cuttest("雷猴是個好網站")
    cuttest("“Microsoft”一詞由“MICROcomputer（微型計算機）”和“SOFTware（軟件）”兩部分組成")
    cuttest("草泥馬和欺實馬是今年的流行詞彙")
    cuttest("伊藤洋華堂總府店")
    cuttest("中國科學院計算技術研究所")
    cuttest("羅密歐與朱麗葉")
    cuttest("我購買了道具和服裝")

smallseg分詞，在python3.3上運行稍微有些問題。py代碼xrange在3.*中已經改名字爲range了。另外，3.*中也沒有decode函數了。

修改了上面的兩個地方，代碼就可移植性了。效果還可以。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

微信小遊戲《頭腦喫雞》題庫

《頭腦喫雞》是類似於《頭腦王者》的一款答題微信小遊戲，題目全都是判斷正誤題，蠻有趣的。我想把它的全部題庫總結出來方便答題使用，無奈題量太大，暫時還只總結了三百多道，之後會持續更新。地址：https://github.com/1033

那就取个昵称呗

2020-07-04 23:30:17

python：刪除指定的非空文件夾

使用python刪除一個指定的文件夾，需要導入shutil模塊這裏要注意，如果使用os下的removedirs()函數，只能刪除空文件夾，遇到非空的文件夾會拋出error 所以這裏使用shutil標準庫，這個庫官方的說法是： The

有些时候甚至幼稚

2020-07-02 00:40:16

Python---爬蟲

由於之前有些博客寫在了新浪博客上，所以想把一些博客移到這裏。其實這篇博客是半年前寫的。一：爬蟲是什麼是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。如果我們把互聯網比作一張大的蜘蛛網，數據便

2020-07-01 04:55:26

小試Python多線程

Python多線程相比其它語言實現起來要簡單一點。最近做的工作是使用多線程將多個文件上傳至新浪微盤。下面簡要總結一下Python的多線程知識。一、Python多線程知識 1. threading模塊。 threading模塊提供了各種非

2020-06-30 20:57:58

使用Python進行文件的分割與合併

使用Python來進行文件的分割與合併是非常簡單的。 python代碼如下： splitFile--將文件分割成大小爲chunksize的塊； mergeFile--將衆多文件塊合併成原來的文件； # coding=utf-8 impo

2020-06-30 20:57:58

使用Python調用新浪微盤接口，創建自己的雲盤應用

我們可以使用新浪微博提供的微盤API接口，開發自己的雲盤應用。下面一起來看一下吧。 1.首先到新浪微盤的開發者平臺上創建自己的應用，然後可以獲得你的APP_KEY和APP_SECRET。 2.新浪微盤採用的是Oauth2.0的認證方式，

2020-06-30 20:57:56

Python實現問卷星自動填寫和選擇

Python實現問卷星自動填寫和選擇啊哈哈哈，我朋友叫我幫他填寫問卷星，，我就直接寫了個python腳本幫他一次性解決全隨機，全自動，一開始我用的是BP直接抓包發送，不過發送頻率過快會讓你驗證，，，就很噁心，，問卷上一共有十

2020-06-29 17:32:21

數據準確性測試之【四】表記錄新增、修改、刪除，對其他字段值的影響

之前所有關於準確性測試部分的分享講的都是去查詢，好似去數據庫執行Select語句；這次想說的是去增加、去修改某些記錄，好似去執行Update和Insert語句；情景一新增表記錄、刪除表記錄下圖是在前端頁面對於充值明細

2020-06-29 02:20:04

數據完整性測試之【二】導出的CSV、Excel文件和數據庫表裏的記錄

前面的分享接口返回值和數據庫表裏的記錄【一】說過，把前端頁面顯示的所有數據明細導出爲CSV文件，將其和數據庫表裏的數據做校驗，這兒說下我對導出的CSV、Excel的處理；對CSV、Excel文件的處理 1.CSV文件導出按鈕

2020-06-29 02:20:03

數據準確性測試之【二】前端顯示的值、接口返回值和數據庫表裏的記錄

之前分享過一期數據準確性測試【一】，主要是講的web頁面的值做校驗，依靠web自動化、接口自動化的手段，但校驗的是後臺處理過的數據，並未校驗數據庫的值，故在這期說下數據庫表的值與前端、接口的校驗；具體情景圖1的 Opera

2020-06-29 02:20:03

數據完整性測試之【一】接口返回值和數據庫表裏的記錄

之前做了一期關於校驗Web前後相關頁面數據的分享，這次來做一期關於接口返回值和數據庫的記錄的校驗。情景是我們產品要我校驗web前端頁面的數據，保證所呈現出來的數據結果的準確性，實際我沒整過，也不知道這部分要咋測。幾萬條數據的

2020-06-29 02:20:03

Python腳本之連接數據庫【一】

在執行Python自動化腳本的用例，有產生測試數據，但我很少去數據庫做連接查詢，但是這一部分總得會，總有用上時候。沒想到最近有用到，所以這期分享下Python連接數據庫的操作。 pymysql 連接數據庫情景一先說下具體的情

2020-06-29 02:20:03

數據準確性測試之【一】Web頁面相關的字段

我手上有個財務項目要上線，所以部分工作就是數據校驗，需要保證前後頁面的數據一致【前面頁面是彙總，後面是明細】；之前也沒做過，現在邊摸索實踐邊學習總結，分享下：第一個情景首頁-Nicepay Total字段顯示的是總額；

2020-06-29 02:20:03

日期的校驗

做財務的需求以來，會對date字段做校驗，我總結下自己的方式；【略微有點大題小作了】 day in 某月情景是：某個頁面已經固定死了 Date爲某個月，我要如何對下面的記錄做date字段的校驗呢？ m_fi

2020-06-29 02:20:03

數據準確性測試之【三】數據庫不同數據記錄的表

前面講過前端顯示內容、接口返回值的校驗 Web頁面相關的字段【一】、數據庫查表記錄的值和前端頁面、接口返回值的校驗前端顯示的值、接口返回值和數據庫表裏的記錄【二】；這次來說下數據庫不同表的部分字段校驗；實際這部分就是取記錄，篩

2020-06-29 02:19:53

24小時熱門文章

最新文章

最新評論文章