原创 Yuan2.0代碼主要結構概覽及三種並行方式實現

該代碼結構如下圖所示: 在initialize_megatron初始化megatron的過程中,有關於數據並行、流水線並行、張量並行的實現,簡介及其實現如下: 模型分佈式環境初始化: 以兩臺分別有8個GPU服務器爲例,訓練具有12層的tr

原创 docker創建容器問題-docker run

W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy/InRelease Temporary failure resolving 'archive.ubuntu.

原创 使用docker搭建deepspeed多機多卡分佈式微調大模型環境

前置環境:兩臺可以互通的centos服務器(服務器1、服務器2),docker,NVIDIA驅動   一、docker創建overlay共享網絡 1)選用服務器1作爲manage節點進行初始化,執行docker swarm init Sw

原创 16GB顯卡推理80G大模型

最近看到一篇推文是在不量化、不損失精度的情況下使用一張16G的顯卡推理70B的大模型。方案來自於kaggle的一個方案,具體流程爲: 1.創建一個空的(例如,沒有權重的)模型 2.決定每一層將要去哪裏(當有多個設備可用時) 3.在內存中加載

原创 基於SentencePiece擴充LLaMa中文詞表

Sentencepiece是google開源的文本Tokenzier工具,其主要原理是利用統計算法,在語料庫中生成一個類似分詞器的工具,外加可以將詞token化的功能;對比開源的分詞器,它會將頻繁出現的字符串作爲詞,然後形成詞庫進行切分,所

原创 基於本地知識庫和LLM的知識庫問答難點及解決方案

  難點:由於langchain採用的是硬切分文檔的方式,導致文檔分割不夠準確,例如:在文檔中若有分點描述的情況,對文檔硬性分割後,會把各個重點分隔開,導致後續向量召回時,片段是殘缺的。如:   如果硬性分割文檔,則在召回階段拿到所有的通

原创 記錄一個奇葩的huggingface數據加載問題

使用dataset = datasets.load_dataset("beyond/rlhf-reward-single-round-trans_chinese")下載數據集會報錯: FileNotFoundError: [Errno 2]

原创 部分聚類算法簡介及優缺點分析

    之前項目有聚類的一些需求,現大致對一些聚類算法總結下:     聚類是對一系列事物根據其潛在特徵按照某種度量函數歸納成一個個簇的動作,使得簇內數據間的相似度儘可能大,不同簇的數據相似度儘可能小。     通常聚類流程如下:數據獲取-

原创 基於對比學習的文本相似度模型

問題:BERT的表示本身存在塌縮的問題。通過對BERT詞表示的觀察,會發現整體呈錐形分佈:高頻詞聚集在錐頭部,低頻詞分散在錐尾。又由於高頻詞本身是高頻的,因此會主要貢獻整個的句子表示,讓整體的相似度都很高。 解決思路: 對比學習,它是通過拉

原创 文本相似度部分方法介紹及實現

文本相似度任務: 最*接到文本結構化的任務,經過一番實驗發現,可將該任務轉化爲計算標題檢索排序任務,可用文本相似度的方法來做。文本相似度計算可直接根據文本本身計算距離來得到或使用模型將語義向量化後再計算距離得到。 一、根據文本本身計算相似度

原创 Albert學習記錄

albert相對BERT而言主要有三個改進方向: 1、對Embedding因式分解 在BERT中,詞向量維度E和隱層維度H是相等的。而詞嵌入學習的是單詞與上下文無關的表示,而隱層則是學習與上下文相關的表示。顯然後者更加複雜,需要更多的參數,

原创 StructBERT模型記錄

StructBERT模型是達摩院提出的Bert系列模型,相比BERT模型而言,主要增加了兩個預訓練任務來提升模型性能: 1、Word Structural Objective   Word Structural Objective是從未被

原创 條件隨機場簡介

之前學習了隱馬爾可夫模型,現在記錄一下條件隨機場。本文主要參考了《統計學習方法》,如有錯誤,請各位多多指教 1、什麼是條件隨機場 首先我們先了解什麼是隨機場。 在概率論中,隨機場的定義爲:由樣本空間Ω = {0, 1, ..., G − 1

原创 Windows對python文件加密

最近項目需要對部分python文件加密,調研了部分方法都覺得不可行,最後採用了將python轉換成so文件、pyd文件的方法。so文件,爲liunx下的動態鏈接庫文件,在windows下爲dll文件,pyd文件是Python的動態模塊,實質

原创 隱馬爾可夫模型

本文主要參考了《統計學習方法》及https://github.com/aespresso/a_journey_into_math_of_ml 請各位大佬多多指正。 隱馬爾可夫模型(hidden Markov model, HMM)描述由隱藏