原创 【NLP複習】關於詞向量的基礎知識和BERT問世之前的模型

一、解釋一下詞袋和文本離散表示? 文本表示分爲離散表示和分佈式表示。離散表示的代表就是詞袋模型,one-hot、TF-IDF、n-gram都可以看作是詞袋模型的詞向量表示方法。去重後扔進字典裏,沒有順序可言。 句子的one-hot編碼:如

原创 css讓文字靠底下對齊

需求:這裏可能是一行,可能是兩行,需要其y方向靠近底部對齊 解決:設置其所在div的height,修改當前css屬性 display:flex;align-items:flex-end;  

原创 使用Cron語法創建定時任務:Python的apscheduler模塊

 1.安裝 pip install apscheduler 2.使用 from apscheduler.schedulers.blocking import BlockingScheduler from datetime import

原创 入坑Abstractive Summarization:文本摘要CNN/DM數據集

幾個CNN/DM數據集的地址: 【萬x之源】最初版本的CNN/DM:https://cs.nyu.edu/~kcho/DMQA/ 作者兄弟用來創造非匿名數據集的代碼:https://github.com/abisee/cnn-dailym

原创 前端js獲取本機ip地址

<script src="https://pv.sohu.com/cityjson?ie=utf-8"></script> 調用時: var ip = returnCitySN["cip"]; 即可得到ip

原创 【NLP複習】關鍵詞提取方法(TF-IDF、TextRank)

一、TF-IDF TF = 某詞在文檔中出現的次數 / 文檔的總詞數 IDF = log_e ( 語料庫中文檔總數 / 包含該詞的文檔數+1 ) 優點:簡單快速 不足:沒考慮單詞的位置和語義信息;生僻詞的IDF值會過高;重要

原创 【NLP複習】深度學習中的優化方法

概述:前言爲需要優化的原因,正文爲梯度下降/隨機梯度下降/小批量隨機梯度下降/動量法/AdaGrad和RMSProp算法/AdaDelta算法/Adam算法。 前言:需要優化的原因(局部最小值和鞍點): x=x- η ▽f(x)  :學

原创 安裝cnpm導致npm報錯的解決方案

本來想使用安裝淘寶的鏡像 結果給安崩了,modules/npm不見了 於是就各種搜,都說重裝... 幾經折騰,終於探索出了一個不用重裝的方法: 找到nodejs安裝包,Repair! 大功告成!  於是就換了一種換鏡像源的方法:

原创 用Python單發/羣發郵件

import smtplib from email.mime.text import MIMEText # 創建郵件 # 郵箱,郵件 # smtp服務器:smtp.163.com # 端口: 25 # 郵箱賬號:email@163

原创 【NLP複習】常用激活函數的比較

一、啥是激活函數?爲啥用激活函數?常用的有哪些? 啥是激活函數?激活函數是上層節點的輸出和下層節點的輸入之間的一個非線性函數關係。 爲啥用激活函數?要是不用激活函數,不管多少層的神經網絡說白了都是些線性變換的疊加,網絡的逼近能力有限,所以

原创 scrapy爬蟲之原理和簡單實戰

安裝scrapy pip install scrapy cmd執行scrapy和scrapy bench驗證安裝 原理 engine是引擎,核心大腦 spiders寫爬蟲邏輯,提取數據(item)或者請求,請求交給調度器,數據交給

原创 【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization

論文:https://arxiv.org/pdf/1906.04466.pdf 源碼:https://github.com/hongwang600/Summarization 摘要: 現存摘要抽取模型大都用交叉熵損失(刻畫兩個概率分佈的距

原创 【NLP複習】NER:用HMM(隱馬)訓練,用維特比算法預測

一、命名實體識別(NER)是生成模型還判別模型?主流模型? 是生成模型:P(x|y),訓練過程根據tag預測token;而判別模型P(y|x)與之相反 基於LM的主流模型:BERT/LSTM+CRF 概率圖模型:HMM 二、何爲HMM?

原创 用BART搭建摘要生成服務

1.準備工作 安裝transformers,並下載以下文件: vocab文件:https://s3.amazonaws.com/models.huggingface.co/bert/roberta-large-vocab.json me