原创 NLP基礎算法總結(待續)

NLP基礎算法總結一、詞法分析1、分詞二、句法分析三、語義分析四、文檔分析五、其他 nlp(Natural Language Processing) 簡稱:自然語言處理 以下爲自然語言處理用到的基礎算法,包括詞法分析、句法分析、語義分

原创 centos配置的eth0不生效

自己在虛擬機中配置的eth0,重啓或者遷移鏡像之後,靜態ip不生效,查看ifconfig,結果生成了新的eth1。 第一步: $ vim /etc/udev/rules.d/70-persistent-net.rules 複製裏

原创 利用百度AI接口評估語句通順度

如何判斷一句話是否通順,通順程度如何,這裏用到了百度AI的DNN語言模型接口 例如:“今天成立了中華人民共和國”,對此句子分析 1、獲取百度的token client_id:是主持百度AI後的id client_secret:相當於祕

原创 jupyter notebook 恢復誤刪單元格或者歷史代碼

1、先說恢復誤刪單元格的操作 場景:不小心把某個cell給cut了,或者刪除了(前提不要關閉notebook窗口)。 解決方法:先按Esc鍵進入命令模式,在按z鍵就會恢復。記住不要按Ctrl+z(這個只限沒刪除單元格的常規操作) 命令

原创 有轉行意向或者想學習AI方面知識的請進

針對人羣:有意向轉行。本羣提供轉行需要哪些專業知識,人工智能行業的簡介,目前行業的狀況,自學需要從何學起等有關AI方向的信息。 相互交流獲取資源爲主! qq羣:581598079

原创 fp_growth(Frequent Pattern tree)關聯算法

注意:此方法筆者已經試過,計算關聯詞,在跑大批量數據模型的時候,很消耗內存。打個比方,如果你的數據集足夠大,內存全部能吃完。具體一點,每個子列表有10個詞,共500個子列表,16個G不夠用的,可以想象上萬條以上是什麼情況。 改進的方法

原创 wordcloud解決‘'list' object has no attribute 'items'’

由於fit_words需要傳入字典格式,原來傳入列表會報錯 from os import path from wordcloud import WordCloud from matplotlib import pyplot as pl

原创 pandas apply應用並行進程,多核加快運行速度

前言: 在進行數據處理的時候,我們經常會用到 pandas 。但是 pandas 本身好像並沒有提供多進程的機制。本文將介紹如何來自己實現 pandas (apply 函數)的多進程執行。其中,我們主要藉助 joblib 庫,這個庫爲

原创 解決pandas合併某一列的文本內容

最近在做文本聚類時遇到,需要把某列的文本內容統一合併,其實很簡單。 上代碼 import pandas as pd df = pd.DataFrame({'text':['今天天氣不錯,適合出去玩。', '最近在上海舉辦了中國進口

原创 協同過濾之基於用戶-物品矩陣推薦系統(待續)

先上圖,第一個是基於物品協同過濾推薦,第二個是基於用戶的協同過濾推薦 這個兩個步驟差不多。先說基於物品的協同過濾,原理就是上面這張圖,下面說步驟 一、基於物品的協同過濾 步驟: 1、根據用戶對物品的評分構建用戶-物品矩陣 2、創建