原创 大模型推理框架 vLLM 源碼解析(二):Block 模塊分配和管理

1. Block 概覽 vLLM 的一個很大創新點是將物理層面的 GPU 和 CPU 可用內存切分成若干個 block,這樣可以有效降低內存碎片化問題。具體而言,vLLM 的 block 分爲邏輯層面(logical)和物理層面(physi

原创 OpenAI 的視頻生成大模型Sora的核心技術詳解(一):Diffusion模型原理和代碼詳解

標題黨一下,順便蹭一下 OpenAI Sora大模型的熱點,主要也是回顧一下擴散模型的原理。 1. 簡單理解擴散模型 簡單理解,擴散模型如下圖所示可以分成兩部分,一個是 forward,另一個是 reverse 過程: forwar

原创 大模型推理框架 vLLM 源碼解析(一)

1. Quick Start 創建如下代碼,命名爲 run.py from vllm import LLM, SamplingParams prompts = [ "Have you followed marsggbo in Zhihu

原创 vllm 安裝踩坑 (The NVIDIA driver on your system is too old)

我的環境如下: nvidia-smi 顯示 cuda 版本是 11.7 目前最新vllm 要求的 torch 版本是 2.1.2,該版本要求的 cuda 版本是 11.8,所以不匹配。執行安裝會遇到如下錯誤 RuntimeError:

原创 IEEE 浮點數表示原理

原文: https://zhuanlan.zhihu.com/p/144697348

原创 LLM 學習筆記-Deepspeed-MoE 論文

論文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 1. Introduction

原创 AttributeError: module 'torch' has no attribute 'fx'解決辦法

這個報錯原因很好解決,只需要在引入包的時候調用下面的語句就可以了 import torch.fx

原创 LLM 入門筆記-Tokenizer

以下筆記參考huggingface 官方 tutorial: https://huggingface.co/learn/nlp-course/chapter6 下圖展示了完整的 tokenization 流程,接下來會對每個步驟做進一步

原创 LLM 學習筆記-transformers庫的 PreTrainedModel 和 ModelOutput 到底是什麼?

閒言碎語 我在剛開始接觸 huggingface (後簡稱 hf) 的 transformers 庫時候感覺很冗雜,比如就模型而言,有 PretrainedModel, AutoModel,還有各種 ModelForClassifica

原创 大模型訓練過程中用到的 gpt_merge.txt和gpt_vocab.json是幹什麼用的?

下面這邊文章講的非常清晰,原文鏈接:https://blog.csdn.net/ljp1919/article/details/113616226

原创 在Megatron-Deepspeed項目中如何下載和預處理Wikipedia數據集

更詳細的查看 https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md 下載Wikipedia壓縮數據集(enwiki-la

原创 transformer模型訓練、推理過程分析

複雜度分析 推理過程圖示 Double QLORA示意圖

原创 【轉載】CMake從頭開始學習-上

這篇文章寫的太好了非常適合新手入門,原文鏈接是 https://subingwen.cn/cmake/CMake-primer/index.html

原创 【轉載】Macbook M1/M2如何調試c++代碼?使用lldb即可

轉載自:https://www.zybuluo.com/qidiandasheng/note/349994#:~:text=GDB%3A,C%2B%2B或者Python插件。 Macbook M1/M2無法安裝gdb,但是可以使用lld

原创 【轉載】阮一峯:Make 命令教程

https://www.ruanyifeng.com/blog/2015/02/make.html