ai 大模型

国内镜像
https://hf-mirror.com/

国外

https://huggingface.co/

 

使用

pip install transformers
 

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

# 加载模型和分词器
model = AutoModelForSeq2SeqLM.from_pretrained('t5-small')
tokenizer = AutoTokenizer.from_pretrained('t5-small')

# 编码输入文本
input_text = "Translate English to French: Hello, how are you?"
input_ids = tokenizer.encode(input_text, return_tensors='pt')

# 生成输出文本
outputs = model.generate(input_ids)
decoded_output = tokenizer.decode(outputs[0])

print(decoded_output)

 

大模型上下文长度1040k  换算成汉字大约多少字

上下文长度为 1040k 词元,如果每个词元代表一个汉字,那么上下文长度就是 1040 万个汉字。因为“k”代表千(kilo),所以 1040k 意味着 1040,0000。在中文文本中,通常一个词元对应一个汉字,所以我们可以直接将词元数转换为汉字数

如果我们假设一个词元平均代表一个单词,并且一个单词平均有 5 个字符(这在英语中是一个合理的估计),那么 1,040,000 词元大约对应于:

1,040,000 词元 * 5 字符/词元 = 5,200,000 字符

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章