原创 ModuleNotFoundError: No module named 'jieba'

在python中import jieba分詞器,報錯ModuleNotFoundError: No module named 'jieba'。 原因是沒有安裝jieba。 解決方案: 打開終端,輸入以下命令安裝jieba即可。 pip

原创 互聯網上應該怎麼說話

1,最近在一個全是陌生人的微信羣裏,看大家討論一個問題。其中有一位,發言很多,反駁別人的語氣也很激烈,用了很多感嘆號和反問句。 其實,他的絕大多數觀點我都同意,但是,你就是能感覺到,羣裏所有人對他都很反感。 2,這件事,對我有一個很重要的

原创 什麼是stop word

stop word,停止詞,停用詞,在自然語言處理中,指的是沒有什麼實際意義的詞語,比如的,了,啊等,以及標點符號等。

原创 pandas.DataFrame.drop_duplicates()函數

官方文檔給出的這個函數的作用是Return DataFrame with duplicate rows removed, optionally only considering certain columns.也就是刪除重複的行之後返回一

原创 離職過程雜記

2018年: 一月十號,週三,原坤給許琦說了,可以繼續簽字了。 一月十一號,週四,十八項目評審,一天沒有聯繫進度。 一月十二號,週五,辦完了歸還多餘機器的事情,問了許琦,他說宋處還沒有簽字。還問了問魏謙,交公積金社保的事。 一月十五日,週

原创 文本中詞語的頻率分佈

NLTK爲頻率分佈提供了內置的支持。 1,使用FreqDist可以生成頻率字典。 >>> fdist1 = FreqDist(text1) >>> fdist1 FreqDist({',': 18713, 'the': 13721, '

原创 set,sorted以及tokens[-2:]表示什麼

進行下面的例子: >>> say = ['after', 'all', 'is', 'said', 'and', 'done'] >>> tokens = set(say) >>> tokens {'said', 'and', 'is'

原创 對思考方式的轉變

在工作中,應該逐步轉變自己“接收需求,開發代碼,解決問題”的思維方式,逐步培養鍛鍊自己“思考系統,提前判斷,系統規劃”的能力,結合業務實際需要,多思考系統再往後發展的方向,提前進行規劃。

原创 又一次錯過一條信息

早上,和奶奶一起送小孩上學。 到了幼兒園門口,在門口迎接孩子的老師說,都帶了牙刷牙膏牙杯了吧?今天幼兒園給孩子塗氟,需要用到。 我這纔想起來,兩天前剛剛簽過塗氟知情同意書,可以沒有通知今天塗氟和帶牙刷之類的東西呀。 我想,應該是在微信羣通

原创 python常用的文本相關的函數

1,單詞計數 統計一篇文章中,所有的詞語和標點符號的個數,使用下面的方法。len函數對於重複的詞語,會進行多次計數 len(text3) 2,獲取文章中的全部單詞 獲取文章中的全部單詞使用函數set,它會輸出text3中的全部單詞,各個

原创 一切建立在一個好身體的基礎上

昨天晚上下班後,和一個好朋友,在西單的漢光百貨吃了個飯。 聊到了生活,工作,壓力這些話題,通過討論這些話題,我認識到一個事實,那就是 之所以現在的生活狀態還不錯,是因爲每個月有固定的工資收入。 之所以每個月有固定的工資收入,是因爲你有目前

原创 Python:將文本當做詞鏈表

標題中的“鏈表”,準確來講,其實應該是數組或者列表。 1,定義一個數組 通過下面的方式定義一個數組。可以通過數組的名稱輸出數組內容,可以通過len函數,計算數組中元素的個數。 >>> sent1 = ["call", "me", "Bi

原创 NLTK入門

1,安裝NLTK 首先需要安裝python。然後打開終端,輸入 import nltk nltk.download() 這是,會打開另一個界面,如下。選擇Collection標籤下的book,點擊Download,等待完成下載。 b

原创 NLTK是什麼

Natural Language Toolkit,自然語言處理工具包,在NLP領域中,最常使用的一個Python庫。

原创 京東的SOA化實踐

平時在京東買東西時,不知道大家有沒有留意過京東的網址變化。 京東的首頁,如下圖,網址是jd.com。 然後,我們打開京東的類目頁,如下圖,網址是list.jd.com。 當我們點擊一個具體的商品後,如下圖,網址是item.jd.com