原创 大模型微調技術LoRA與QLoRA

LoRA: Low-Rank Adaptation of Large Language Models 動機 大模型的參數量都在100B級別,由於算力的喫緊,在這個基礎上進行所有參數的微調變得不可能。LoRA正是在這個背景下提出的解決方案。

原创 TencentPretrain 轉 Huggingface

TP格式轉HF 指令 python3 scripts/convert_llama_from_tencentpretrain_to_hf.py \ --tp_model_dir /cpfs01/shared/public/xulif

原创 9.21Leetcode記錄

一、數據流中的中位數 題目 如何得到一個數據流中的中位數?如果從數據流中讀出奇數個數值,那麼中位數就是所有數值排序之後位於中間的數值。如果從數據流中讀出偶數個數值,那麼中位數就是所有數值排序之後中間兩個數的平均值。 例如, [2,3,4] 

原创 9.20Leetcode記錄

一、字符串的排列 題幹: 輸入一個字符串,打印出該字符串中字符的所有排列。 你可以以任意順序返回這個字符串數組,但裏面不能有重複元素。 示例: 輸入:s = "abc" 輸出:["abc","acb","bac","bca","cab","

原创 LSTM自動編碼器進行時間序列異常檢測(Pytorch)

環境準備 本次數據集的格式.arff,需要用到arff2pandas模塊讀取。 # !nvidia-smi # !pip install -qq arff2pandas # !pip install -q -U watermark 導入

原创 數據平滑處理-均值|中值|Savitzky-Golay濾波器

均值濾波器 均值濾波器是一種使用頻次較高的線性濾波器。它的實現原理很簡單,就是指定一個長度大小爲奇數的窗口,使用窗口中所有數據的平均值來替換中間位置的值,然後平移該窗口,平移步長爲 1,繼續重複上述操作,直至滑動到時序數據的末尾,如此一來,

原创 neo4j切換數據庫方法,簡單好用!知識圖譜

切換數據庫 1.關閉當前neo4j進程2.打開F:\neo4j\neo4j-community-3.5.5-windows\neo4j-community-3.5.5\conf下文件,把dbms.active_database=test.d

原创 中華古詩詞知識圖譜之實體關係構建&導入neo4j數據庫

實體分析 詩名實體 屬性 包含:作詩時間,詩名,內容,翻譯,背景。 關係 實體1 關係 實體2 詩名 形式 詩詞形式 詩名 作者 詩人 詩名 分類 類別 詩名 詞牌名 詞牌名 詩名 曲牌名 曲牌名 詩名 朝代

原创 1230-詩詞問答

詩詞問答 詩人問題 #----------詩人相關問題------------------------------------------------- # 詩人的作品 self.poem_name_qwd

原创 中華古詩詞知識圖譜之網頁設計及實現(完結)

前臺大屏數據可視化 朝代詩集總數-柱狀圖 統計各朝代的詩集總數,進行柱狀圖展示   宋詞意象詞頻統計-詞雲圖  將收集的宋詞,經過分詞器,在進行統計後,得出的意象詞頻結果,再將其展示成爲詞雲圖。    唐朝情感分佈-餅狀圖 分析唐朝詩詞

原创 中華古詩詞知識圖譜構建之數據獲取

數據獲取 詩詞數據 來源於:尋古詩詞網 對應的詩詞板塊,構建詩詞知識圖譜,爬取了唐宋元明清五大朝代的詩詞 根據朝代來逐個爬取,分頁爬取,可以發現分頁的規律 唐代古詩的第一頁url鏈接格式如下:https://www.xungushici.

原创 1217-詩詞鑑賞

詩詞鑑賞 整體鑑賞    單句鑑賞 這裏還有些欠缺,翻譯和賞析需要再細分一下,細分到具體的詩句的譯文和情感 其次,詩詞的模型還需要訓練,後期不僅實現單句賞析,最好能出現單個名詞性意象的賞析(名詞性意象需要進行單獨的訓練)    

原创 1216-詩詞七類情感分析

七類情感分析 情感字典標註數據集 通過之前word2vec查找七類情感的相近詞,得到一個情感詞典,由於我們需要對其進行詩句評分,來判斷整體的情感表現。 故而,我們重新收集了相關的情感詞典,並收集了對應的權重(相似程度值),以此來判斷整首詩的

原创 Bilstm中文微博多情感分析

Bilstm中文微博多情感分析 數據 我的數據是來自github的一個項目:ChineseNlpCorpus 裏面收集了蠻多用於自然語言處理的中文數據集/語料。 下載地址: 百度網盤數據概覽: 36 萬多條,帶情感標註 新浪微博,包含 4

原创 基於Word2vec的詩詞多情感分析

Word2vec構造情感字典 基本含義 基於Word2vec的字向量能從大量未標註的普通文本數據中無監督地學習到字向量,而且這些字向量包含了字與字之間的語義關係,正如現實世界中的“物以類聚,類以羣分”一樣,字可以由它們身邊的字來定義。 從原