原创 tensorflow 基礎定義

作爲TensorFlow的小白,還有很多東西要學的。 (1)    node node1 = tf.constant(3.0, tf.float32) node2 = tf.constant(4.0) # also tf.float32

原创 word2vec 用於訓練數據,生成模型

(1)首先準備好數據,這是未標記的數據形式。 (2)stopword 的數據 然後根據數據,設計代碼。 word2vec訓練詞向量 import os import re import numpy as np import pand

原创 NLP算法之一(樸素貝葉斯實際部分,新聞分類器)

對算法每個部分都具體的實現,調用的第三方庫相對較少。進行  新聞的文本分類 Stopword(停止詞) 數據樣式:          五個方法: 1,粗暴的詞去重 2,文本處理,生成我們想要的樣本,劃分訓練集和測試集,統計詞頻,詞

原创 nlp技能,jieba分詞

jieba中文處理 參考寒小陽,jieba課的內容 1.基本分詞函數與用法¶ jieba.cut 以及 jieba.cut_for_search 返回的結構都是一個可迭代的 generator,可以使用 for 循環來獲得分詞後得到的每

原创 爬蟲養成記

爬取某個旅遊網站的信息: python3.6的環境,安裝了BeautifulSoup,requests,time這三個庫。 from bs4 import BeautifulSoup import requests import time

原创 word2Vec--(1) nltk實現簡單的切詞,情感分析,文本相似度(TF-IDF)

Nltk   from nltk.corpus import brown (1)    brown.categories()  該文件下的文章目錄 (2)    len(brown.sents()) (3)    len(brown.w

原创 NLP算法之一(樸素貝葉斯理論部分)

一、貝葉斯公式 貝葉斯公式就一行: P(Y|X)=P(X|Y)P(Y)P(X) 而它其實是由以下的聯合概率公式推導出來: P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y) 其中P(Y)叫做先驗概率,P(Y|X)叫做後驗概率,P(

原创 ubuntu下如何 將文件或者文件夾傳到github上.

https://www.jianshu.com/p/c70ca3a02087(第一步)1,ssh檢查2,生成祕鑰,打開id_rsa.pub,查看.3,github上設置相關的ssh 遠程的鏈接.(第二步)1,到達想上傳的文件夾下. 初始化

原创 textcnn自己的理解

import tensorflow as tf import numpy as np class TextCNN(object): """ A CNN for text classification. Uses

原创 crf的意義

轉載地址:http://blog.csdn.net/xueyingxue001/article/details/51499087 學習方法          條件隨機場模型實際上是定義在時序數據上的對數線性模型,其學習方法包括

原创 小小爬蟲很狂暴-----day01

小爬蟲,環境: 1, python 2.7環境 2, 必須確保聯網狀態。 3,裝好需要的庫文件。 對於pybloomfilter 的引用,本人經驗: 不要去 pip install pybloomfilter, 裝上之後,不會報錯,但無法

原创 意圖識別

本次嘗試,採用了 深度學習和 機器學習兩種方式去考慮相關的。前者採用embedding的詞嵌入的方式基於lstm-dssm模型做司機問題和庫文件中標準問題做相似度匹配。後者對數據少的信息採用smote方式擴容,採用tfidf和bow方法基

原创 A deep relevance matching model for ad-hot retrieval 論文個人理解

Abstract:    在本篇論文中,針對臨時檢索,提出了一種新興的深度相關匹配模型(DRMM)。對於

原创 生成歌詞多層的lstam

import os import sys import time import numpy as np import tensorflow as tf from tensorflow.contrib.tensorboard.plugin