浪潮云物理主机服务全面升级
随着人工智能技术加速迭代,算力作为核心驱动力,正为各领域发展提供关键支撑。近日,浪潮云基于AI智算云全面升级云物理主机服务,实现对异构设备的全生命周期管理。
为化解算力资源管理中面临的硬件架构多样且新旧兼容难、管理监控工具不统一、资源均衡分配与利用难等问题,云物理主机服务通过对算力的统一纳管、监控与调度,能够一站式满足软硬件兼容适配、资源高效分配以及设备集中管理监控等需求。

基于云物理主机服务提供的全国算力纳管服务平台
异构设备统一纳管,破除智算设备壁垒
云物理主机服务通过模拟云物理机生命周期,针对用户线下部署的xPU服务器,实现“线下设备线上化管理”。用户只需在云物理主机控制台中补充线下物理机基础配置与环境配置,即可实现线下物理机的统一纳管。纳管完成后,在云物理主机产品控制台就能完成开关机、挂载/卸载云硬盘、绑定弹性公网IP等的全场景运维操作,打破线上线下设备管理边界,让线下设备拥有与云物理机一致的管理体验。
此外,通过搭载“多元异构算力感知技术”,云物理主机服务实现了自动化资源适配,可精准识别CPU、GPU、FPGA、ASIC等不同计算资源的硬件特性,并通过拓扑感知、自动注册、分类融合等技术将分散的异构资源抽象为集群节点的“可用资源单元”。基于这一精准感知能力,可为用户自动加载适配的设备驱动与软件工具栈,避免了手动配置可能出现的错误和疏漏,简化云资源配置维护流程,以自动化、智能化、高可用的云资源供给,为业务应用提供稳定可靠的运行环境。
全维度监控覆盖,精准掌握设备运行状态
云物理主机服务可自动扫描并识别环境中CPU、xPU等计算资源,实时采集多维运行数据,实现“全类型设备、全核心指标”的可视化监控。在CPU层面,支持国内外主流CPU品牌的负载、使用率等指标监控;在xPU层面,可覆盖国内外主流xPU厂商等设备,实时追踪单卡算力负载、温度、功耗、显存使用率,以及整机运行稳定性等关键数据。
基于上述指标,云物理主机服务为运维人员构建了“穿透式”设备状态视图,既能实现全维度集中监控,让各类设备运行状态一目了然,又能支撑精准故障诊断,助力运维人员快速定位问题根源,大幅提升管理效率。
算力资源动态调度,实现跨架构算力平衡
针对多架构环境下资源不平衡、性能瓶颈等问题,浪潮云创新推出一云多芯动态资源调度平衡技术,通过对内存、CPU、机架位置等多种特征负载情况的感知,实现跨CPU架构的动态资源热平衡,在集群出现CPU使用率高或内存使用率高等场景时,自动触发动态资源调度,达到优化集群可用性的目标,提升资源利用率。
在“人工智能+”行动的推进中,智能算力正为经济社会发展带来更全面、系统、深刻的变革。未来,浪潮云将依托分布式智能云与浪潮人工智能模型工厂,持续突破算力瓶颈、提升算力效率,共建开放协同的算力生态,为“人工智能+”赋能各领域数字化转型注入动能,实现“有云处皆智能”。