功能特性¶
模型中心的功能特性参见下表:
一级功能 | 二级功能 | 描述 |
---|---|---|
模型支持 | 生成式 Transformer 模型支持 | 大语言模型: Llama-2-13B ChatGLM3-6B ChatGLM4-9B Qwen-14B-Chat Qwen2-7B-Chat Baichuan2-13B-Chat 多模态模型: Qwen-VL-Chat |
模型部署 | 多样化部署方式 | 支持通过镜像或文件挂载的方式部署 HuggingFace Transformers 上的模型 |
Embedding 模型部署 | 支持如 BGE-Large-Zh-v1.5 和 BGE-Large-En-v1.5 等 Embedding 模型的部署 | |
Rerank 模型部署 | 支持如 BGE-Reranker-Large 等 Rerank 模型的部署 | |
多类型模型服务支持 | 支持大语言模型和多模态模型的在线对话服务 | |
GPU 部署支持 | 支持在 Nvidia 和 昇腾 Ascend 系列 GPU 上部署模型,包括 Nvidia 的整卡和 vGPU 部署 | |
服务监控 | 大语言模型服务监控 | 提供 GPU 使用率、Token 处理延迟、服务健康状态等多项指标的监控功能 |
水平自动扩展(HPA) | 自动扩展支持 | 根据 GPU 使用率和 Token 延迟自动调整服务规模,确保服务高效运行 |
微调模型 | 模型微调部署 | 支持部署模型微调导出的 checkpoint |
模型微调部署 | 支持多个微调模型服务的部署,并提供对话结果比对功能,帮助评估和选择最优模型 | |
在线模型服务集成与管理 | API Key 管理 | 提供主流在线模型服务的 API Key 管理功能 |
权限管理 | 支持 API 密钥的权限设置和使用限制 | |
支持的在线服务 | 豆包、阿里通义千问、Azure、OpenAI、百度文心千帆、智谱、ChatGLM、讯飞星火认知、商汤商量、财跃星辰 |