1、清程极智 Qingcheng.AI清程极智 Qingcheng.AI清程极智 Qingcheng.AI清程极智 Qingcheng.AI清程极智 Qingcheng.AI清程极智 Qingcheng.AI吴再龙清程极智 Qingcheng.AI10 PFlops1 PFlops100 TFlops10 TFlops1 TFlops100 GFlops10 GFlops1 GFlops100 MFlops100 PFlops10 EFlops1 EFlops100 EFlops1993201719992005201120231 ZFlops2029天气预报医疗图像生命科学预测2015 云计计算落
2、地2010 国家超算中心2005 集群普及2000 集群出现现1995 MPP大型机2018 云超算+超算互联联网2023 智算,一体机、超节节点HPC 20年:云计算推动HPC进入普惠时代清程极智 Qingcheng.AI集群、云计算、一体机、超节点、智算中心清程极智 Qingcheng.AI清程智能算力软软件+国产产芯片=不逊逊色于国际际水平的算力解决方案原厂编译器智能算力CUDATVMIntelliGenDeepSpeed 丨 vLLMBagualu 丨 Chitu NCCL算力企业私有,清程极智协助优化 模型框架并行加速通信库AI编译器编程语言系统统编编译译算力企业私有,清程极智协助优
3、化英伟达英伟达或国产算力清程自研大模型训练和推理系统能更好地应对大规模集群并行训练及高并发、低延迟的推理需求 清程自研智能编译器可代替人工,自动生成高性能算子更高效地适配异构算力同时支持英伟达及多种国产芯片软硬协同优化硬件底层性能NVCC芯片厂商自有编译器国外主流方案智能算力清程方案自研自研自研AI Ping自研openrouter 云端工具省清程自研一站式API评测及调用平台通过智能路由、7 24小时数据评测、让开发者API调用更准、更省、更智能多快平台好快多PyTorch 丨 TensorFlow 丨 Hugging FacePyTorch 丨 TensorFlow 丨 Hugging F
4、ace清程极智 Qingcheng.AIx可计算空间人脑擅长(FP16/BF16,FP8/FP4,INT8,INT4 代数运算)人脑不擅长(FP64,FP32,超越函数)人工智能数值计算神经计算DL,LLM形式逻辑Math (HPC)结构化大模型 LDMAI 大模型与HPC优优化的本质质差异:从静态态高精度计计算到动态动态低精度加速,从通用并行框架到领领域专专用优优化AI与传统科学计算(HPC)的核心差异与技术继承清程极智 Qingcheng.AI科学与工程计计算(HPC):FP64,FP32算力、结构与数据精度与“准确性”原理为为何科学计计算(HPC)“偏爱爱”高精度?求解大规模的线性方程组
5、*Ax=b*或非线性方程组,高精度保证收敛性和 解的有效性 问题的病态性:条件数定义:(A)=|A|A|决定了 误差放大效应 (A).迭代过程中的误差累积:x =G.x +c科学与工程计计算(HPC):FP64,FP32为为何AI大模型能“容忍”低精度?AI大模型,本质是大规模、高维、非凸的随机优化问题*。对噪声和误差的容忍度高。算法的随机性:随机梯度下降(SGD)及其变体估计全局梯度,本身有很大噪声 低精度引入的量化噪声(Quantization Noise):计算噪声被视为 SGD 噪声,算法消化掉+正则化效应 梯度的作用:方向比大小更重要 模型的鲁棒性与冗余性:大型神经网络、激活函数的饱
6、和(ReLU),统计规律AI for Science的判定:P0.05?Token 概率 事实概率,AI的校准问题,RHLF 后更加自信 量化“语义不确定性”(Semantic Uncertainty),贝叶斯估计会实现吗?算力、结构与数据精度与“准确性”原理清程极智 Qingcheng.AI特征HPC基准测试测试LLM基准测试测试主要目标评估数值模拟、科学计算和数据分析的原始计算能力、系统能力和可扩展性。评估生成式人工智能应用程序的实际推理性能、响应能力和吞吐量,反映用户体验和部署成本效益。典型指标CPU服务器集群:FLOPS(每秒浮点运算次数):TFLOPS、PFLOPS 带宽:内存带宽(