DCE(DaoCloud Enterprise),提供强大的基础设施能力,支持超大规模算力集群、异构 GPU 等一站式托管,并提供一系列如 vGPU 等软硬一体加速方案。
数据编排 :支持模型开发生命周期中数据管理与编排能力,提供多数据源接入,数据集管理、超大训练数据预热等能力,并且从底层存储引擎优化,保障数据的安全与高效利用。 开发管理 :提供主流的模型开发工具,满足 MLOps 和 LLMOps 工程师和科学家们对开发工具的需求,支持快速拉起高性能开发环境,一键申请高性能 GPU、软件依赖、训练数据等资源。 任务管理 :支持训练任务的全生命周期管理,提供多种快速创建任务的方式;支持 Pytorch、TensorFlow、PaddlePaddle 等主流任务框架,天然支持单机、分布式、多节点、多卡等多种类任务调度。 模型推理 :提供便捷的模型服务 Serving 能力,支持传统 NLP 模型应用和LLM 大模型一键部署,自带模型安全、审计等管理能力,支持模型服务的弹性扩容与持续可观测监控预警。 运维看板 :支持监控看板,算力资源与任务资源一览无余,实现全自动平台可观测,更提供详细的指标监控与运维产品能力。 GPU 管理 :支持自动化 GPU 硬件发现,实现 GPU 套件全自动安装,用户无需处理繁琐的 GPU 驱动、CUDA 等部署工作,提供提供统一 GPU 资源看板与 调度情况分析。 队列管理 :支持大模型算力资源的统一调度队列管理平台,支持用户全自动队列隔离能力,实现不同业务与算力需求互不干扰,从基础设施层面实现数据与算力资源安全隔离。 逻辑架构图
注册并体验 d.run