HPC集群建设
软件服务
服务简述
  • HPC集群建设服务是面向科学与工程计算巅峰需求的全栈式、交钥匙解决方案。我们从应用需求出发,提供涵盖咨询规划、架构设计、硬件集成、软件调优与持续运维的完整生命周期服务。我们交付的不是一堆硬件堆砌,而是一个稳定、高效、易用且持续进化的战略级科研与创新算力引擎,助力客户攻克最复杂的计算挑战。

服务概要

HPC集群建设服务是面向科学与工程计算巅峰需求的全栈式、交钥匙解决方案。我们从应用需求出发,提供涵盖咨询规划、架构设计、硬件集成、软件调优与持续运维的完整生命周期服务。我们交付的不是一堆硬件堆砌,而是一个稳定、高效、易用且持续进化的战略级科研与创新算力引擎,助力客户攻克最复杂的计算挑战。

核心应用领域

高等院校、科研院所、尖端制造业、能源勘探、生物医药研发、人工智能

服务类型

软件服务

服务流程

  • 第一阶段:需求分析与顶层设计

    深度分析客户主要科研应用的计算、通信、I/O模式,进行原型基准测试,为精准配型提供科学依据。出具包含计算节点配比(CPU/GPU/加速器)、高速互联网络(InfiniBand/Omni-Path)、并行存储系统(Lustre/GPFS)及作业调度系统的完整技术架构与规格方案。



  • 第二阶段:系统集成与部署

    负责所有服务器、网络交换机、存储节点的到货验收、机柜上架、综合布线、硬件调试,确保物理层稳定。部署并优化Linux操作系统、高速网络驱动、并行文件系统、作业调度系统(Slurm/PBS)、编译器及数学库,完成集群软硬件一体化集成。



  • 第三阶段:深度调优与验证

    对MPI通信、存储I/O、作业调度策略等进行系统级调优,运行HPCG、IO-500等基准测试及客户典型应用,验证并达成设计性能指标。部署常用科学计算软件、开发环境(如Intel oneAPI, NVIDIA HPC SDK)、容器平台(Singularity)及监控门户,降低用户使用门槛。



  • 第四阶段:交付、培训与知识转移

    进行全系统稳定性压力测试,通过后移交全套技术文档、管理手册、运维脚本及架构图纸。为系统管理员提供深度运维管理培训,为科研用户提供应用软件使用、作业提交与优化技巧培训。



  • 全周期增值服务

    提供集成的集群监控平台(如Grafana),实时展示资源利用率、作业状态、能效指标,并提供智能告警与诊断建议。提供包含硬件维保、软件升级、性能定期评估及未来算力与存储扩展规划的长周期技术支持服务。

服务免责声明

本公司提供的相关服务适用以下免责条款:

  • 如发生不可抗力事件,包括但不限于自然灾害、疫情、政府行为等;或出现社会公共事件,如战争、动乱、罢工、管制等;或发生公共服务中断,包括电力、网络、水源等基础设施故障,可能导致服务无法正常提供,本公司不承担相应责任。
  • 除本声明中明确约定外,本公司不就其服务作出任何其他明示或默示的保证。
  • 在任何情况下,本公司均不对因使用或无法使用服务所导致的任何直接、间接、附带或后果性损失承担责任。如因本公司过错造成客户损失,赔偿总额不超过客户就该服务已支付的费用。
  • 本服务为可选项目,客户可自主决定是否购买及何时终止。客户选择购买即视为同意:为履行服务所需,本公司有权访问并处理与服务支持相关的必要信息(包括故障诊断、系统调试等)。客户应确保其提供的信息符合法律法规,并已取得所有必要的授权与同意,以避免本公司在提供服务过程中违反任何适用法律或协议义务。

客户选择购买本服务即表示已阅读、理解并完全同意上述所有免责条款。

客户案例

客户案例