triton inference server翻译之model managment

link

Model Management

推理服务器以以下三种模型控制模式之一进行操作:NONE,POLL或EXPLICIT。

Model Control Mode NONE

服务器尝试在启动时加载模型存储库中的所有模型。 服务器无法加载的模型在服务器状态中将标记为UNAVAILABLE,并且不可用于推理。

服务器运行时对模型存储库的更改将被忽略。 使用模型控制API的模型控制请求将不起作用,并且将收到错误响应。

启动推理服务器时,通过指定--model-control-mode = none来选择此模型控制模式。

Model Control Mode POLL

服务器尝试在启动时加载模型存储库中的所有模型。服务器无法加载的模型在服务器状态中将标记为UNAVAILABLE,并且不可用于推理。

将检测到对模型存储库的更改,并且服务器将根据这些更改尝试根据需要加载和卸载模型。可能无法立即检测到对模型存储库的更改,因为服务器会定期轮询存储库。您可以使用--repository-poll-secs选项控制轮询间隔。控制台日志或Status API可用于确定模型存储库更改何时生效。

使用模型控制API的模型控制请求将不起作用,并且将收到错误响应。

该模型控制模式是默认模式,但可以通过指定--model-control-mode = poll并将启动推理服务器时将--repository-poll-secs设置为非零值来显式启用。

在POLL模式下,推理服务器将响应以下模型存储库更改:

  • 通过添加和删除相应的版本子目录,可以从模型中添加和删除版本。推理服务器将允许正在进行的请求完成,即使它们正在使用模型的已删除版本也是如此。对删除模型版本的新请求将失败。根据型号的版本政策,对可用版本的更改可能会更改默认提供的型号版本。

  • 可以通过删除相应的模型目录从存储库中删除现有模型。推理服务器将允许对已删除模型的任何版本进行实时请求。对删除模型的新请求将失败。

  • 可以通过添加新模型目录将新模型添加到资源库中。

  • 可以更改模型配置(config.pbtxt),服务器将卸载并重新加载模型以获取新的模型配置。

  • 可以添加,删除或修改为表示分类的输出提供标签的标签文件,推理服务器将卸载并重新加载模型以拾取新标签。如果添加或删除了标签文件,则必须同时执行其在模型配置中对应的输出的label_filename属性的相应编辑。

Model Control Mode EXPLICIT

在启动时,服务器仅加载使用--load-model命令行选项明确指定的那些模型。 如果未指定--load-model,则启动时不会加载任何模型。 启动后,必须使用Model Control API显式启动所有模型加载和卸载操作。 模型控制请求的响应状态指示加载或卸载操作的成功或失败。

通过指定--model-control-mode = explicit启用此模型控制模式。

EXPLICIT模型控制模式是实验性的。 推理服务器将尝试使用框架后端提供的API来加载和卸载模型,但是至少某些后端可能难以管理重复的加载/卸载周期。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章