国外
使用
pip install transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
# 加载模型和分词器
model = AutoModelForSeq2SeqLM.from_pretrained('t5-small')
tokenizer = AutoTokenizer.from_pretrained('t5-small')
# 编码输入文本
input_text = "Translate English to French: Hello, how are you?"
input_ids = tokenizer.encode(input_text, return_tensors='pt')
# 生成输出文本
outputs = model.generate(input_ids)
decoded_output = tokenizer.decode(outputs[0])
print(decoded_output)
大模型上下文长度1040k 换算成汉字大约多少字
上下文长度为 1040k 词元,如果每个词元代表一个汉字,那么上下文长度就是 1040 万个汉字。因为“k”代表千(kilo),所以 1040k 意味着 1040,0000。在中文文本中,通常一个词元对应一个汉字,所以我们可以直接将词元数转换为汉字数
如果我们假设一个词元平均代表一个单词,并且一个单词平均有 5 个字符(这在英语中是一个合理的估计),那么 1,040,000 词元大约对应于:
1,040,000 词元 * 5 字符/词元 = 5,200,000 字符