通信世界网消息 近日,斯坦福大学根据研究论文、私人投资、专利等关键指标分析了来自36个国家的人工智能生态系统数据,中国排名第二,与美国仍有较大差距。我国生成式人工智能服务备案机制自2023年8月底开始实行,当年备案62个;截至2024年11月17日,备案数量达到252个,2024年已净增190个。
根据公开发布的项目招投标信息,2024年国内的200多个智算中心项目分布于26个省(市、自治区)的100多个地市,有遍地开花之势。本文从产业、集群、生态、市场和边缘等多个角度分析了我国智算中心产业发展的现状与成果,并进行了展望。
产业:智算的“新土壤”
2024年3月,为落实工业和信息化部等六部门联合印发的《算力基础设施高质量发展行动计划》,中国信息通信研究院与中国通信标准化协会联合主办的第二届“华彩杯”算力创新应用大赛启动。大赛收到的8600个项目覆盖信息传输、软件信息技术服务业、公共管理、社会保障与社会组织,以及采矿、制造等19个行业门类、近30个细分行业。经过初赛和决赛,最终不到1%的项目获得全国总决赛荣誉,“华彩杯”算力大赛亦成为我国算力方面重要赛事。
2024年9月,继2023年国家标准 GB/T 43331《互联网数据中心(IDC)技术和分级要求》发布之后,中国信息通信研究院联合业界起草的GB/T 44463《互联网数据中心(IDC)总体技术要求》正式发布。该标准规定了互联网数据中心及设备在基础、高技术、高算力、高能效和高安全5个方面的技术要求,适用于互联网数据中心及设备的规划、设计、建设、运维和评估,旨在为我国数据中心的建设、运营与维护提供全面的技术指导和支持。
2024年9月,商汤智算中心通过理论算力、有效算力、算力能效、业务模型场景支持能力、加分项等5个维度的技术评测,获得DC Tech 5A级智算中心算力性能认证,成为国内智算中心建设的“样板间”;11月,仪电智算中心(松江)、中国联通上海临港智算中心A1楼相继荣获5A级智算中心算力性能认证,成为标杆。
2024年11月,在由中国信息通信研究院主办的国际算力标准与应用研讨会(ISCT)上,来自工业和信息化部通信科技委、中国通信学会、中国信通院以及马来西亚、德国、英国、哈萨克斯坦、印度尼西亚和美国的多国嘉宾共同发起《全球算力合作发展倡议》。该《倡议》计划从算力技术研究创新、算力标准体系建设、算力人才交流合作等方面共同建设全球算力产业合作新生态,为全球算力产业发展注入新活力。
集群:智算值得用的关键
2006 年 ,亚 马 逊 正 式 推 出 了AWS,提供存储、数据库等服务,是云计算的起点。2023年初,ChatGPT3.5 发布,成为智算进入大众视野的起点。2024年10月,xAI公司在19天内完成十万卡H100集群的部署,成为全球第一。按标称数据,该集群的算力达到200EFlops(FP16),IT功率达到150MW。如果按照我们常用的2.5kW 为一个标准机架计算,该集群可以折算为60000个标准机架。
智算和云计算具有本质区别。一般来说,云计算是把CPU虚拟化后以更小颗粒度进行排列组合,并通过网络提供各种计算、存储服务;而用于训练的智算则是把尽量多的GPU组成集群,提供更大规模的(不一定需要网络接入)计算服务。
在规模化法则(Scaling Law)中,模型性能与参数量、数据集和算力等因素具有密切关系,参数量的提升,将带来对算力需求的线性增长。互联多个智算集群处理更大规模的训练,技术方面存在巨大挑战;互联不同主体的智算集群,在商业逻辑方面存在诸多值得探讨的问题。因此,在大模型训练场景下,各种所谓的算力调度是否能带来实际应用价值有待商榷。
生态:智算可以用的关键
英伟达在几十年的发展过程中,构建了“GPU+NVlink+IB+CUDA”的计算网络编程环境一体的生态体系,具有强大的竞争力。由于各种限制,以及国产训练AI芯片产能有限,我国搭建超万卡规模集群难度极大,在这种情况下如何发展我国的人工智能成为一个新的课题。
计算和网络的融合,最终是要解决计算的扩展性问题。现在一个机器8 张GPU卡,以后可能是32张卡、256 张卡,甚至是1024张卡,这就涉及卡间通信是采用基于内存语义的加载/存储交互,还是采用基于网络语义的读/写交互。美国的云厂商和设备商“抱团取暖”,针对卡间互联和机间互联进行了合作创新,组建UEC和UALink等产业联盟,基于统一的网络协议和标准进行技术研发,支持多厂商卡间高速互联。
为解决我国企业各自开展AI芯片和网络研发可能导致未来出现多种芯片需要通过多种网络进行互联的问题,中国信息通信研究院联合互联网企业、电信运营商等成立“AI网络特别任务组”,将聚焦Scale-up和Scale-out技术进行研究,求同存异、兼容并蓄,以期为我国计算网络发展贡献一份力量。
市场:智算用得好的关键
我国具有“应用场景丰富”这一独特优势,各类垂直大模型的使用,将是发展人工智能的突破口。一方面是大量的大模型应用,并不是所有的模型企业都有能力自建智算集群;另一方面是大量规划建设的算力中心,并不是所有的建设方都有充分的用户资源。两者之间如何实现匹配是业界面临的新问题。为深入贯彻落实国家相关政策,推进全国一体化算力网建设部署,在工业和信息化部的指导下,中国信息通信研究院全面推动中国算力平台建设,目标实现“算力资源一本账、算力监测一张网、算力匹配一站式、算力决策一盘棋”。
中国算力平台算力匹配系统已正式推出公测版,试运行期间用户注册超百个,访问量近万次。系统包含算力广场和模创空间两大核心内容,算力广场拥有七大类泛算力产品,包含算力资源、模型服务、AI应用、数据服务等在内的百余件商品,具备在线“选→购→用→管”能力,同时为“供、需、服”生态位构建“供应、购买、分销”支撑体系;模创空间以算力、算法(模型)、数据为基底,汇聚十余类热门模型共建“算力+模型+数据+AI创作”空间,形成自下而上的智算市场新格局。
边缘:智算推理的新场景
随着AI发展面临瓶颈的出现,业内关注点正在转向新的研究领域,如“推理”和“AI代理”。今年早些时候,英伟达财报显示,公司数据中心40%的收入来自推理业务。边缘应用中数据的计算和存储需求逐年增长,云端处理在时延和隐私等方面显得力不从心,边缘计算应运而生。在边缘计算诞生的若干年中,其发展不甚理想。随着人工智能时代的到来,各类推理的应用场景使得边缘计算焕发新的生机。从根本而言,推理就是一种新的边缘计算。
训练是让模型从已有的数据中学习新能力,计算密度大,对算力要求较高;推理是给训练好的模型输入新数据,让它解决同类型的新问题,对算力要求较低。在自动驾驶、智能家居、智慧医疗等场景下,边缘推理技术的不断发展催生出广阔的应用前景。在自动驾驶领域,推理可实现高效的图像识别和目标跟踪,提高自动驾驶的安全性和可靠性;在智能家居领域,推理可实现智能语音识别和智能图像识别等功能,提高家居的智能化水平;在智慧医疗领域,推理可实现医学图像识别和疾病诊断等功能,提高医疗服务的质量和效率。据研究机构报告,2023年人工智能推理芯片市场规模为158亿美元,预计到2030年将达到906亿美元,在2024—2030年预测期内的复合年增长率为22.6%。由此可见,边缘计算(推理)将迎来新的发展机会。
挑战:“卡”尽其用
25 年 前,英 伟达 发 布 了其 首 款GeForce GPU,经过不断的投入、并购和创新,建成如今的“AI帝国”,产生了巨大的经济效益和社会影响力。我国的智算发展起步较晚,但AI芯片技术路线较多。
“路虽远行则将至,事虽难做则必成”。过去十年,我国的数据中心产业在国家和地方主管部门的指导和支持下蓬勃发展,市场整体保持每年30%左右的增长。技术创新活跃,整机柜服务器、液冷、微模块数据中心、智能无损网络、COCI(云服务器)和OTII(边缘服务器)等已经成为全球领先的技术,得到大规模部署应用,且部分成果在算力“出海”的过程中发挥了重要作用。
智算时代产业面临新的难题,需要从业者全心投入。
首先,必须从赋能的角度出发,在谋划阶段就应考虑建成后的应用,“卡”尽其用,将电力更多地转化为算力,避免投资浪费;其次,必须从市场的角度出发,充分发挥各市场主体的主动性和市场调节的灵活性,能做到及时响应、及时调整,供需实现有序对接;再次,必须从实际的角度出发,多走访调研,了解产业实际的困难和需求,精准施策,让产业政策更具引导价值;最后,必须从生态的角度出发,只要规模化法则还有效,构建开放、包容的智算生态就刻不容缓。