智算中心掀起落地热潮,我国超30城市正在建设或提出建设(智算中心建设目的 )

苹果id购买.png

本文目录一览:

小鹏汽车与阿里云联合建成自动驾驶智算中心

小鹏汽车与阿里云联合建成自动驾驶智算中心

小鹏汽车与阿里云联合建成自动驾驶智算中心,该智算中心由小鹏汽车与阿里云在乌兰察布合建,算力可达600PFLOPS(每秒浮点运算60亿亿次),小鹏汽车与阿里云联合建成自动驾驶智算中心。

小鹏汽车与阿里云联合建成自动驾驶智算中心1

8 月 2 日,小鹏汽车与阿里云共同宣布在内蒙古乌兰察布建成中国最大的自动驾驶智算中心 " 扶摇 ",用于自动驾驶模型训练。

" 扶摇 " 基于阿里云智能计算平台,算力可达 600PFLOPS(每秒浮点运算 60 亿亿次),将小鹏汽车自动驾驶核心模型的训练速度提升了近 170 倍,并且未来还具备 10~100 倍的算力提升空间。双方表示,模型训练速度的大幅提升,将有力推动自动驾驶技术的发展,让汽车的智能化程度和安全性都迈入新的阶段。

同时," 扶摇 " 结合乌兰察布当地天然的气候优势,采用风冷、AI 调温、模块化设计等绿色技术,可实现全年超过 80% 时间全新风运行,年平均 PUE(PUE 指数据中心能耗电力电源使用效率,越接近 1,表明数据中心对电能的利用效率越高,越绿色)小于 1.2。目前," 扶摇 " 正用于小鹏城市 NGP 智能导航辅助驾驶的算法模型训练。

凭借地理位置带来的能源、气候等区位优势,乌兰察布是中国数据中心产业联盟评选为最适合发展数据中心的地区,也是全国一体化算力网络枢纽节点之一。目前有华为、阿里、苹果等 26 个数据中心项目落地在此,总计有 419 万台服务器。

整体来看,今年 1-7 月,小鹏汽车累计交付超过 8 万台,为去年同期的 2.1 倍。自交付以来,小鹏汽车历史累计交付量已接近 22 万台。

此外,小鹏汽车首款面向全球的智能旗舰 SUV小鹏 G9 将于 8 月开放预订,并于 9 月正式上市。

小鹏汽车与阿里云联合建成自动驾驶智算中心2

8月2日,“东数西算”内蒙古枢纽节点中国最大的自动驾驶智算中心建成。该智算中心由小鹏汽车与阿里云在乌兰察布合建,算力可达600PFLOPS(每秒浮点运算60亿亿次),用于小鹏汽车的自动驾驶模型训练。“草原云谷”乌兰察布也迎来首座智算中心。

“东数西算”工程是实现算力规模化、集约化和绿色化的全国一体化布局。西部地区通过承接东部算力需求,像“南水北调”“西电东送”一样优化算力资源配置,提升算力资源使用效率。

位于内蒙古的.乌兰察布就在八大国家算力枢纽节点上。依托独特的区位优势和气候优势,包括阿里巴巴、苹果在内的12大数据中心已落户乌兰察布。这里也因此被称为“草原云谷”。

随着人工智能应用的井喷式发展,专用于智能计算的智算成为发展最快的一种算力形式。智算因其“专用性”,在面向AI场景时性能和能耗更优。据工信部统计,目前我国已建和在建的智算中心有20余座,遍布甘肃、京津冀、长三角、粤港澳大湾区、成渝等国家算力枢纽。

为响应国家“东数西算”战略,小鹏汽车与阿里云选择在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS,可将自动驾驶模型训练提速近170倍。模型训练速度的大幅提升,将有力推动自动驾驶技术的发展,让汽车的智能化程度和安全性都迈入新的阶段。

同时,“扶摇”也是更绿色低碳的智算中心,结合乌兰察布当地天然的气候优势,采用风冷、AI调温、模块化设计等绿色技术,可实现全年超过80%时间全新风运行,年平均PUE小于1.2。

小鹏汽车与阿里云联合建成自动驾驶智算中心3

8月2日,小鹏汽车宣布在乌兰察布建成中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”基于阿里云智能计算平台,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏自动驾驶核心模型的训练速度提升了近170倍。

小鹏汽车董事长、CEO何小鹏表示,“随着自动驾驶模拟训练的需求变化,我们需要一个强大的本地+云端的算力来支持。我非常有信心和阿里云在一起合作,我们能够更快更强去实现自动驾驶的研发。小鹏汽车期待,与阿里云一起携手共进,共创未来出行时代的美好明天。”

数据驱动是自动驾驶发展的公认方向,也让自动驾驶模型训练成为一头“吃算力”的巨兽。自动驾驶的视觉检测、轨迹预测与行车规划等算法模型,有赖于机器学习海量数据集,但算力的不足让研发速度仍远远赶不上数据量增长的速度。随着传感器的进一步增加,算力的挑战越来越大。

近年来,专用于机器学习的AI智算成为发展最快的一种算力形式。包括谷歌、微软、Meta、阿里巴巴在内的顶尖科技公司都纷纷建造了智算中心。

自动驾驶算法模型训练是机器学习的典型场景之一。在乌兰察布,小鹏汽车建造了一个算力规模达600PFLOPS的自动驾驶专用智算中心“扶摇”,来进一步提高模型训练的效率。

通过与阿里云合作,“扶摇”以更低成本实现了更强算力。首先,对GPU资源进行细粒度切分、调度,将GPU资源虚拟化利用率提高3倍,支持更多人同时在线开发,效率提升十倍以上。在通讯层面,端对端通信延迟降低80%至2微秒。整体计算效率上,实现了算力的线性扩展。

存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。此外,阿里云机器学平台PAI提供了模型训练部署、推理优化等AI工程化工具,比开源框架训练性能提升30%以上。

“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天,缩短至1小时内,大幅提速近170倍。目前,“扶摇”正用于小鹏城市NGP辅助驾驶系统的算法模型训练。和高速道路相比,城市路段的交通状况更为复杂,自动驾驶特殊场景(corner case)的数据集规模增加了上百倍。

为什么要建设智算中心?建设智算中心具有怎样的意义?

当前,社会正在从数字化、网络化走向智能化,产生了海量大数据,以及越来越强大的计算力,要把人的知识和经验固化并赋能到千行百业,需要把算法、数据、算力三者有机融合起来,而智算中心作为新型算力公共基础设施,符合中国当前社会经济发展阶段和转型需求。想要具体了解智算中心的意义需要引入两个形象的比喻:智算中心就好比智慧社会的高速公路,要想富先修路,修路肯定要先于买车和拉货,它有很多不可量化的,经济效益之外的社会效益;智算中心又像是智慧社会的能力底座,是公共能力平台,在很多方面改变了社会,重塑了社会,对于地域经济竞争力的革新和重构起到催化作用和产业吸纳、聚集作用。

“东数西算”热背后的“冷”思考-

“不冒烟的钢厂”年用电量占全 社会 用电2%左右,耗电量增速连续多年在10%以上——

近日,工信部、国家发改委等六部门公布智算中心掀起落地热潮我国超30城市正在建设或提出建设了44家2021年度国家绿色数据中心。其中,通信领域、互联网领域分别有14家和19家,占比分别为31.8%和43.2%;公共机构、能源、金融领域的数据中心数量分别为5家、1家和5家。在通信领域入围的14家单位中,东部地区占据5席,其中江苏独占3席,分别为中国电信南京吉山云计算中心二号楼、中国移动长三角(南京)数据中心和中国电信苏州太湖国际信息中心。

国家评选绿色数据中心,其背后是节能和能效提升等方面的考量。数据中心作为“不冒烟的钢厂”,其能耗和环保等方面的问题随之进入大众视野。

各地竞相布局

大数据中心除了具备数据存储的功能外,还有进行数据云计算的功能,为海量数据的分析和处理提供了强大算力。南京邮电大学数字经济研究所所长、江苏省信息化专家委员会副秘书长姚国章教授表示,如同马力之于农业时代、电力之于工业时代,算力已经成为数字经济时代的核心“底座”之一,推动着大数据中心从“瓦特”向“比特”的转化。这不仅为各行业“上云用数赋智”提供了基础性支撑,也为数据这一新生产要素的自由流动创造了可能。一项研究报告的量化数据显示,计算力指数平均每提高1个百分点,数字经济和GDP将分别增长3.3‰和1.8‰。因此,大数据中心近年来成了“香饽饽”,不少地方竞相投资建设。

2021年12月,国务院印发《“十四五”数字经济规划》,其中明确提出数据资源是目前数字经济深化发展的核心引擎,对于数字经济的统筹规划和对数据要素的高效利用是我国“十四五”期间重要的发展方向之一。

今年2月17日,“东数西算”工程正式全面启动,8大国家算力枢纽节点和10个国家数据中心集群完成布局,这是我国继南水北调、西电东送、西气东输后的第四大跨区域资源调配的超级工程。根据实施方案,将依托京津冀、长三角、粤港澳大湾区、成渝城市群,以及贵州、内蒙古、甘肃、宁夏等全国算力网络枢纽节点,统筹规划大数据中心的建设布局,引导大数据中心适度集聚并形成数据中心集群,且在集群之间建立高速数据中心直联网络,最终形成以数据流为导向的新型算力网络格局。

“东数”为何“西算”

大数据中心“一哄而上”、“东数西算”热背后的能耗和环保等问题,也随之浮出水面。大数据中心自身绿色发展的问题,越来越引起国家有关部门和地方政府的重视。

大数据中心大量的IT设备、供电设备及制冷设备,需要消耗庞大的电能。因此,大数据中心又被称为“不冒烟的钢厂”。中国信息通信研究院数据显示,2020年全国数据中心耗电量约760亿千瓦时,占全 社会 总耗电量(75110亿千瓦时)的1%。折算为二氧化碳排放量,2020年全国数据中心二氧化碳排放量近4000万吨。最新的统计显示,当前我国各类数据中心年用电量已占全 社会 用电的2%左右,耗电量增速连续多年保持在10%以上。我国很多大数据中心的电能利用效率(PUE)大于2.2,远高于国际先进水平。

实际上“东数西算”工程背后,也是国家节能和能效提升等方面的考量。江苏红网技术股份有限公司总经理陈军介绍,“东数西算”通俗地讲就是把东部的数据送到西部进行存储和计算。我国东部地区经济发达、人口密度大,对数据要素的产生、存储和处理需求高,但建设数据中心需要大规模的土地,同时会产生大量的能源消耗以及碳排放等问题。我国西部的一些地区风能、太阳能等绿色能源丰富,许多地区气候凉爽,也有利于数据中心进行机器散热、减少耗电、节省成本。在西部地区发展数据中心,承接东部算力需求,不仅能够解决东部地区能耗指标紧张、电力成本高、大规模数据中心开发空间受限等问题,还能把西部地区丰富的可再生能源、可利用荒地进行充分利用,同时提升区域绿色能源利用比例,就近消纳西部绿色能源。

姚国章教授认为,“东数西算”项目优化资源利用率的同时,也给西部地区在数字经济浪潮下带来新的发展机会。以实施“东数西算”工程为抓手,通过数据流引领带动资金流、人才流、技术流等跨区域流通,有助于打通我国东西部数字经济的大动脉,是实现产业聚集、区域均衡发展的重要路径。

在“东数西算”的大背景下,绿色低碳的数据中心建设也提上日程。数据中心绿色高质量发展,不仅有利于企业降低能源消耗造成的运行成本,更是促进我国碳中和目标的实现和绿色能源战略实施的必经之路。南京大学计算机系黄宜华教授介绍,目前我国各大数据中心的服务器耗电量依然巨大,经常出现一个机房成千上万台服务器满负荷运作的情况,服务器的高负荷运作在消耗巨大的电量。要如期完成碳达峰、碳中和的目标,各级政府和市场各方对一体化推动大数据中心协调发展的呼声渐高。一方面,亟须改进大数据中心的建设布局、发展模式,推动大数据中心向绿色高效、集约化发展转型;另一方面,要加快推动数据中心、云、网络之间的协同联动,避免形成数据中心“孤岛效应”,提高资源的整体利用率。

江苏的“绿色”样板

作为此次江苏当选国家绿色数据中心的三家单位之一,中国电信南京吉山云计算中心二号楼设计机柜超1700架,年总用电量约15000万千瓦时,电能利用效率(PUE)2021年为1.3,远低于东部地区平均能耗水平。在东部地区数据中心整体能耗高的大背景下,吉山云计算中心是如何走上绿色发展之路的呢?该中心负责人介绍,首先,为了实现节能目标,中心秉持“绿色设计先行”的理念,采用水冷式中高水温中央空调制冷系统。80%的机房采用水冷列间空调,冷冻水直接进入机房换热,减少中间损耗。20%的机房安装热管背板空调,在保证核心机房不进水的前提下,减少压缩机损耗。同时,尽可能采用自然冷源。设置板式换热器,冬季采用自然冷源,根据室外温度灵活调整冷冻水系统的供回水温度,增加自然冷源的利用时长,减少冷机启动时长,有效降低空调系统能耗。其次,中心完善能源管理系统,提供可实时显示各系统及主要设备能源使用情况的节能分析手段,通过能耗分析发现数据中心存在的节能盲点,有针对性地提升数据中心节能水平。

此外,中心还建立健全了能源管理制度,使用节水型用水器,开展第三方节能诊断与评测,进行综合节能技术改造等。经过一系列措施技术和管理创新,二号楼电能利用效率(PUE)由2019年的1.41优化为2021年的1.3。中国电信南京吉山云计算中心负责人表示,未来吉山云计算中心还将继续积极响应国家建设低碳数据中心要求,在园区使用光伏、储能等绿色节能技术,并力争在2025年以前将PUE降至1.25,有力支撑“东数西算”长三角国家枢纽节点建设。

暗战中的机遇与挑战

“东数西算”不是简单地将东部的算力需求全部搬到西部,而是需要根据数据存储地以及算力的需求匹配相应的枢纽节点,实现资源配置中的效能最优化方案。“东数西算”的背后,一场智算中心的争夺战其实早已拉开序幕。 科技 部在2020年年底发文称,人工智能计算中心是智慧城市的“新基建”,是一个非常重要的基础设施。从2020年开始,全国掀起了智算中心的建设热潮,算力的竞争已成为城市之间暗中角力的一个重要领域。据统计,从2021年1月1日到2022年2月15日,全国共有至少26个城市在推动或完成当地智算中心的建设,其中就包括南京智能计算中心。

今年2月,“东数西算”上升为国家战略,国家发改委等部门确定了8个国家算力枢纽节点,并规划了10个国家数据中心集群。国家发改委等部门在《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件中指出智算中心掀起落地热潮我国超30城市正在建设或提出建设:“原则上,对于在国家枢纽节点之外新建的数据中心,地方政府不得给予土地、财税等方面的优惠政策。”其背后透露出的对大数据中心进行集约化管理的信号十分明显,目的是解决数据中心行业目前存在的资源错配、能耗高、电力使用效率低等问题。对此,姚国章教授认为,江苏和南京在这方面机遇与挑战并存。

南京有南京大学等3所高校开设了人工智能学院,中科院计算所在南京建立了创新中心,姚期智院士率清华团队在南京建立了图灵人工智能研究院,创新工场AI工程院组建了南京研究院;寒武纪、浪潮、华为等多家国内知名企业助力南京数字化建设。目前南京已集聚人工智能企业近300家,核心产业规模超过60亿元,带动相关产业规模近800亿元。姚国章教授认为,江苏和南京具备在数字经济领域发力和作为的雄厚基础,以强劲算力助力长三角地区的算力枢纽节点建设,更好地汇聚产业生态,提升长三角人工智能产业的整体竞争力。根据《南京市打造人工智能产业地标行动计划》,到2025年南京人工智能核心产业规模将达到500亿元,带动相关产业规模5000亿元,发展成为全省第一、全国前三、全球有影响力的人工智能创新应用示范城市。

全球算力竞争日趋白热化 智算中心成未来数据中心演进方向

数字技术与实体经济的加速融合,正在为经济 社会 的持续 健康 发展注入新动能。

国务院印发的《“十四五”数字经济发展规划》提到,数字经济是继农业经济、工业经济之后的主要经济形态,是促进公平与效率更加统一的新经济形态。

尤其是数字经济发展速度之快、辐射范围之广、影响程度之深前所未有,正推动生产方式、生活方式和治理方式深刻变革,成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。

统计显示,2020年,我国数字经济核心产业增加值占国内生产总值(GDP)比重达到7.8%。到2025年,这一比重预计将达到10%。

而在推进数实融合的过程中,算力作为数字经济时代的关键生产要素,也成为挖掘数据要素价值、推动数字经济发展的核心支撑力和驱动力。

浪潮信息、IDC和清华大学全球产业研究院3月17日联合发布的《2021-2022全球计算力指数评估报告》(以下简称报告)指出,数字技术走向大规模应用的决定性因素是算力,因为每一项新技术的落地应用,背后都是庞大的算力资源做支撑。

报告研究表明,国家计算力指数与GDP的走势呈现出显著的正相关。当计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.5‰和1.8‰,而且该趋势预计在2021-2025年将继续保持。

不仅如此,当一个国家的计算力指数达到40分以上时,计算力指数每提升1点,对GDP增长的推动力将增加1.5倍,而当计算力指数值达到60分以上时,计算力指数每提升1点,对于GDP增长的推动力将提高到3倍,对经济的拉动作用变得更加显著。

这里的计算力指数模型是由计算能力、计算效率、应用水平、基础设施支持四个维度构成。以此进行的计算力指数国家排名结果显示,2021年,美国和中国分别以77分和70分位列前两位,处于领跑者位置。

而追赶者国家得分在40分到60分区间,包括日本、德国、英国、法国、加拿大、韩国、澳大利亚;得分低于40分的为起步者国家,包括印度、意大利、巴西、俄罗斯、南非和马来西亚。

与2020年相比,上述国家除南非外,算力评分均有所提升,但各国家所属阵营的划分并未发生变化,这在一定程度上反映出,虽然各国间的算力竞争愈发白热化,但是,全球各国算力竞争格局已初步形成。

在这些国家中,中国是过去一年算力指数增幅最大的国家,达到13.5%。其中在计算能力方面,中国的AI计算发展更是领跑全球,AI服务器指数规模同比增长44.5%,也首次超过美国位列全球第一。

李东红进一步指出,首先,算力资本作为一种新生产投入能够与传统物质资本形成互补效应。比如在对算力进行大量的产业化投资时,需要进行软硬件方面的建设,而算力相关产业的快速发展,也会催生出新的产业、业态和发展模式。

同时,算力资本能够以创新的知识和技术改造传统物质资本,促进资源的利用效率或者劳动利用率进一步提升,进而提升传统资本的边际收益。

其次,算力资本增长会产生正网络外部性效应和溢出效应。从基础设施的角度而言,加大对数据中心等算力基础设施的投资,将进一步增强算力资本与传统物质资本之间的互补效应和协同效应,提高一国生产物品和服务的能力,提升数字经济在国民经济中的比重,最终促进潜在GDP增长并提升整体经济发展水平。

最后,研究数据显示,一国增加对算力的投资比重,会进一步提高稳态经济增长率,这也说明算力作为一种新技术进步因素,其对经济发展的影响具有加速作用,所以加大算力的投资可能带来一国经济发展水平的跃升。

而在算力建设的过程中,加大对数据中心等算力基础设施的投资,是一项重要举措。

从供应方角度,计算更多是CPU主导,但智算偏向于特定的计算模式,这时候需要加入GPU以及一些专用处理器来实现。

张东提供了一个预估数据,未来对一个大模型训练所需的算力,可能每三四个月就需要翻一番,这意味着一年就要增加10倍。

而从应用端,算力的供给也亟须提升。比如VR产业经过多年的发展,仍未进入成熟期,一个很重要的原因就是算力支撑还不够。所以,接下来如何满足日益多元化的智算需求,就需要大力发展智算中心。

张东表示,数据中心未来的演进形态是智算中心,而智算中心必须具备三个特点,即开放标准、集约高效、普适普惠。

其中,“开放标准”要求数据中心从硬件到软件、从芯片到架构、从建设模式到应用服务都应该是开放的、标准的;“集约高效”要求数据中心的建设要有超大规模,要采用领先的技术,保证自身的先进性;“普适普惠”则要求数据中心发挥基础设施的 社会 价值,服务大众。

目前,在国家的统筹布局下,全国一体化大数据中心体系已完成总体布局设计,“东数西算”工程也已全面启动。根据规划,我国将在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,同时还规划了10个国家数据中心集群。

对此,张东称,智算中心不仅包含算力基础设施,还有算法基础设施。算力基建化只是第一步,接下来,还需要加强算法基础设施建设。“只有实现算法基建化,才能让更多的企业享受普适普惠的智算服务。”

更多内容请下载21 财经 APP

算力可贵,效率价高:智算中心凭啥是筑基新基建的最优解?

在“新基建”浪潮下,人工智能正成为经济增长的新引擎,各行各业开启智能化升级转型。算力在其中扮演了重要角色,是国家未来竞争力的集中体现。但事实是,在发展的过程中,高速增长的海量数据与更加复杂的模型,正在为算力带来更大的挑战,主要体现为算力不足,效率不高。

算力诚可贵:数据、算法需要更多算力支撑

众所周知,在人工智能发展的三要素中,无论是数据还是算法,都离不开算力的支撑,算力已成为人工智能发展的关键要素。

IDC发布的《数据时代2025》报告显示,2018年全球产生的数据量为33ZB (1ZB=1万亿GB),到2025年将增长到175ZB,其中,中国将在2025年以48.6ZB的数据量及27.8%的占比成为全球最大的数据汇集地。

另据赛迪顾问数据显示,到2030年数据原生产业规模量占整体经济总量的15%,中国数据总量将超过4YB,占全球数据量30%。数据资源已成为关键生产要素,更多的产业通过利用物联网、工业互联网、电商等结构或非结构化数据资源来提取有价值信息,而海量数据的处理与分析对于算力的需求将十分庞大。

算法上,先进模型的参数量和复杂程度正呈现指数级的增长趋势。此前 Open AI 发表的一项研究就显示,每三到四个月,训练这些大型模型所需的计算资源就会翻一番(相比之下,摩尔定律有 18 个月的倍增周期)。2012 至 2018 年间,深度学习前沿研究所需的计算资源更是增加了 30 万倍。

到2020年,深度学习模型对算力的需求达到了每天百亿亿次的计算需求。2020年2月,微软发布了最新的智能感知计算模型Turing-NLG,参数量高达到175亿,使用125POPS AI计算力完成单次训练就需要一天以上。随后,OpenAI又提出了GPT-3模型,参数量更达到1750亿,对算力的消耗达到3640 PetaFLOPS/s-day。而距离GPT-3问世不到一年,更大更复杂的语言模型,即超过一万亿参数的语言模型SwitchTransformer即已问世。

由此可见,高速增长的海量数据与更加复杂的模型,正在给算力带来更大的挑战。如果算力不能快速增长,我们将不得不面临一个糟糕的局面:当规模庞大的数据用于人工智能的训练学习时,数据量将超出内存和处理器的承载上限,整个深度学习训练过程将变得无比漫长,甚至完全无法实现最基本的人工智能。

效率价更高:环境与实际成本高企,提升效率迫在眉睫

在计算工业行业,有个假设是“数字处理会变得越来越便宜”。但斯坦福人工智能研究所副所长克里斯托弗•曼宁表示,对于现有的AI应用来说却不是这样,特别是因为不断增加的研究复杂性和竞争性,使得最前沿模型的训练成本还在不断上升。

根据马萨诸塞大学阿默斯特校区研究人员公布的研究论文显示,以常见的几种大型 AI 模型的训练周期为例,发现该过程可排放超过 626000 磅二氧化碳,几乎是普通 汽车 寿命周期排放量的五倍(其中包括 汽车 本身的制造过程)。

例如自然语言处理中,研究人员研究了该领域中性能取得最大进步的四种模型:Transformer、ELMo、BERT和 GPT-2。研究人员在单个 GPU 上训练了至少一天,以测量其功耗。然后,使用模型原始论文中列出的几项指标来计算整个过程消耗的总能量。

结果显示,训练的计算环境成本与模型大小成正比,然后在使用附加的调整步骤以提高模型的最终精度时呈爆炸式增长,尤其是调整神经网络体系结构以尽可能完成详尽的试验,并优化模型的过程,相关成本非常高,几乎没有性能收益。BERT 模型的碳足迹约为1400 磅二氧化碳,这与一个人来回坐飞机穿越美洲的排放量相当。

此外,研究人员指出,这些数字仅仅是基础,因为培训单一模型所需要的工作还是比较少的,大部分研究人员实践中会从头开发新模型或者为现有模型更改数据集,这都需要更多时间培训和调整,换言之,这会产生更高的能耗。根据测算,构建和测试最终具有价值的模型至少需要在六个月的时间内训练 4789 个模型,换算成碳排放量,超过 78000 磅。而随着 AI 算力的提升,这一问题会更加严重。

另据 Synced 最近的一份报告,华盛顿大学的 Grover 专门用于生成和检测虚假新闻,训练较大的Grover Mega模型的总费用为2.5万美元;OpenAI 花费了1200万美元来训练它的 GPT-3语言模型;谷歌花费了大约6912美元来训练 BERT,而Facebook针对当前最大的模型进行一轮训练光是电费可能就耗费数百万美元。

对此,Facebook人工智能副总裁杰罗姆•佩森蒂在接受《连线》杂志采访时认为,AI科研成本的持续上涨,或导致我们在该领域的研究碰壁,现在已经到了一个需要从成本效益等方面考虑的地步,我们需要清楚如何从现有的计算力中获得最大的收益。

在我们看来,AI计算系统正在面临计算平台优化设计、复杂异构环境下计算效率、计算框架的高度并行与扩展、AI应用计算性能等挑战。算力的发展对整个计算需求所造成的挑战会变得更大,提高整个AI计算系统的效率迫在眉睫。

最优解:智算中心大势所趋,应从国家公共设施属性做起

正是基于上述算力需求不断增加及所面临的效率提升的需要,作为建设承载巨大AI计算需求的算力中心(数据中心)成为重中之重。

据市场调研机构Synergy Research Group的数据显示,截至到2020年第二季度末,全球超大规模数据中心的数量增长至541个,相比2015年同期增长一倍有余。另外,还有176个数据中心处于计划或建设阶段,但作为传统的数据中心,随之而来的就是能耗和成本的大幅增加。

这里我们仅以国内的数据中心建设为例,现在的数据中心已经有了惊人的耗电量。据《中国数据中心能耗现状白皮书》显示,在中国有 40 万个数据中心,每个数据中心平均耗电 25 万度,总体超过 1000 亿度,这相当于三峡和葛洲坝水电站 1 年发电量的总和。如果折算成碳排放则大概是 9600 万吨,这个数字接近目前中国民航年碳排放量的 3 倍。

但根据国家的标准,到2022年,数据中心平均能耗基本达到国际先进水平,新建大型、超大型数据中心的 PUE(电能使用效率值,越低代表越节能)达到 1.4 以下。而且北上广深等发达地区对于能耗指标控制还非常严格,这与一二线城市集中的数据中心需求形成矛盾,除了降低 PUE,同等计算能力提升服务器,尤其是数据中心的的计算效率应是正解。

但众所周知的事实是,面对前述庞大的AI计算需求和提升效率的挑战,传统数据中心已经越来越难以承载这样的需求,为此,AI服务器和智算中心应运而生。

与传统的服务器采用单一的CPU不同,AI服务器通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求,为自然语言处理、计算机视觉、语音交互等人工智能应用场景提供强大的算力支持,已经成为人工智能发展的重要支撑力量。

值得一提的是,目前在AI服务器领域,我们已经处于领先的地位。

近日,IDC发布了2020HI《全球人工智能市场半年度追踪报告》,对2020年上半年全球人工智能服务器市场进行数据洞察显示,目前全球半年度人工智能服务器市场规模达55.9亿美元(约326.6亿人民币),其中浪潮以16.4%的市占率位居全球第一,成为全球AI服务器头号玩家,华为、联想也杀入前5(分别排在第四和第五)。

这里业内也许会好奇,缘何中国会在AI服务器方面领跑全球?

以浪潮为例,自1993年,浪潮成功研制出中国首台小型机服务器以来,经过30年的积累,浪潮已经攻克了高速互联芯片,关键应用主机、核心数据库、云数据中心操作系统等一系列核心技术,在全球服务器高端俱乐部里占有了重要一席。在AI服务器领域,从全球最高密度AGX-2到最高性能的AGX-5,浪潮不断刷新业界最强的人工智能超级服务器的纪录,这是为了满足行业用户对人工智能计算的高性能要求而创造的。浪潮一直认为,行业客户希望获得人工智能的能力,但需要掌握了人工智能落地能力的和技术的公司进行赋能,浪潮就可以很好地扮演这一角色。加快人工智能落地速度,帮助企业用户打开了人工智能应用的大门。

由此看,长期的技术创新积淀、核心技术的掌握以及对于产业和技术的准确判断、研发是领跑的根本。

至于智算中心,去年发布的《智能计算中心规划建设指南》公布了智能计算中心技术架构,基于最新人工智能理论,采用领先的人工智能计算架构,通过算力的生产、聚合、调度和释放四大作业环节,支撑和引领数字经济、智能产业、智慧城市和智慧 社会 应用与生态 健康 发展。

通俗地讲,智慧时代的智算中心就像工业时代的电厂一样,电厂是对外生产电力、配置电力、输送电力、使用电力;同理智算中心是在承载AI算力的生产、聚合、调度和释放过程,让数据进去让智慧出来,这就是智能计算中心的理想目标。

需要说明的是,与传统数据中心不同,“智算中心”不仅把算力高密度地集中在一起,而且要解决调度和有效利用计算资源、数据、算法等问题,更像是从计算器进化到了大脑。此外,其所具有的开放标准,集约高效、普适普惠的特征,不仅能够涵盖融合更多的软硬件技术和产品,而且也极大降低了产业AI化的进入和应用门槛,直至普惠所有人。

其实我们只要仔细观察就会发现,智算中心包含的算力的生产、聚合、调度和释放,可谓集AI能力之大成,具备全栈AI能力。

这里我们不妨再次以浪潮为例,看看何谓全栈AI能力?

比如在算力生产层面,浪潮打造了业内最强最全的AI计算产品阵列。其中,浪潮自研的新一代人工智能服务器NF5488A5在2020年一举打破MLPerf AI推理训练基准测试19项世界纪录(保证充足的算力,解决了算力提升的需求);在算力调度层面,浪潮AIStation人工智能开发平台能够为AI模型开发训练与推理部署提供从底层资源到上层业务的全平台全流程管理支持,帮助企业提升资源使用率与开发效率90%以上,加快AI开发应用创新(解决了算力的效率问题);在聚合算力方面,浪潮持续打造更高效率更低延迟硬件加速设备与优化软件栈;在算力释放上,浪潮AutoML Suite为人工智能客户与开发者提供快速高效开发AI模型的能力,开启AI全自动建模新方式,加速产业化应用。

那么接下来的是,智算中心该遵循怎样的发展路径才能充分发挥它的作用,物尽其用?

IDC调研发现,超过九成的企业正在使用或计划在三年内使用人工智能,其中74.5%的企业期望在未来可以采用具备公用设施意义的人工智能专用基础设施平台,以降低创新成本,提升算力资源的可获得性。

由此看,智能计算中心建设的公共属性原则在当下和未来就显得尤为重要,即智能计算中心并非是盈利性的基础设施,而是应该是类似于水利系统、水务系统、电力系统的公共性、公益性的基础设施,其将承载智能化的居民生活服务、政务服务智能化。因此,在智能计算中心规划和建设过程中,要做好布局,它不应该通过市场竞争手段来实现,而要体现政府在推进整个 社会 智能化进程的规划、节奏、布局。

总结: 当下,算力成为推动数字经济的根基和我国“新基建“的底座已经成为共识,而如何理性看待其发展中遇到的挑战,在不断高升算力的前提下,提升效率,并采取最佳的发展策略和形式,找到最优解,将成为政府相关部门以及相关企业的重中之重。

“东数西算”的智慧大脑!26座城市抢建智算中心

智东西(公众号:zhidxcom)

作者 | 杨畅

编辑 | 李水青

智东西2月25日消息,近日,“东数西算”国家项目正式启动,为数据中心产业带来了重要利好信号。(《 历史 时刻!“东数西算”国家工程全面启动》)

作为数据中心中领域的一颗“明珠”,智算中心也引起行业关注。

一般认为,智算中心全称是人工智能计算中心,主要是为人工智能(AI)应用提供所需算力服务、数据服务和算法服务,由AI芯片和算力机组等设备组成,与云计算中心、超算中心有一定区别。企业和研究机构可以依托智算中心提供的强大算力,驱动AI模型进行数据深度加工,实现AI应用创新。

“东数西算”国家项目强调在京津冀、长三角、成渝等八大枢纽间建设算力网络,支持全国各地日益增长的算力需求。而沿着这张算力网络“地图”,我们发现智算中心已经“遍地开花”。

细数过来,从2021年到2022年开年,全国有不下20座城市建成或正在建智算中心,智算中心数量达到27个,而其中位于八大枢纽的就有12个,接近50%。

“东数西算”工程国家算力枢纽节点范围内的智算中心

那么具体有哪些城市在建设或者规划建设智算中心?“东数西算”工程会对智算中心带来什么样的影响?各地智算中心项目建设进度如何?可能会对当地AI产业有何影响?

智东西通过调查2021年以来各地规划、建设和建成的智算中心,并与业内人士交流,来与大家一起探讨这些问题。

据智东西统计,从2021年1月1日到2022年2月15日,全国共有至少26个城市在推动或刚刚完成当地智算中心的建设,这些城市中既有省会城市,例如南京、西安,也有非省会城市,像许昌、青岛。

其中,不少城市已经在本地建设了像大数据中心、云计算中心、国家超算中心等信息基础设施。不过这些中心并不能替代智算中心,它们之间的功能存在差异——像云计算中心,主要是提供云服务,超算中心主要为科学研究提供超算服务,智算中心则主要是为企业和科研院所提供普惠AI算力服务。

此外,中信所《人工智能计算中心发展白皮书(2021)》中指出,智算中心借鉴了超级计算(高性能计算)中心和云计算数据中心大规模并行计算和数据处理的技术架构,但它是以AI专用芯片为计算算力底座的。上述三类中心的软件和业务架构不一样,不过云数据中心和超算中心也可以通过延展建设,来对外提供智能算力。

据我们统计,2021年,全国建成并投入运营或试运营的智算中心有8个,分别是武汉人工智能计算中心、合肥先进计算中心、南京智能计算中心、中国电信京津冀大数据智能算力中心、浙江(长三角)新一代全功能智能超算中心、西安未来人工智能计算中心、中原人工智能计算中心、哈尔滨人工智能先进计算中心,投运时间分别是5月、6月、7月、8月、9月、9月、10月和12月。这些智算中心中大部分都有二期建设规划。

截至目前,2021年和2022年各地投入运营的智算中心情况

一些智算中心并没有直接用“智算中心”或“人工智能计算中心”命名,而是采用“先进计算中心”或“智能超算中心”的命名方式,但它们也提供智能算力,所以也可以算作智算中心,例如合肥先进计算中心和浙江(长三角)新一代全功能智能超算中心。

不同智算中心的测算算力时采用的算力测试基准有所差别,使用算力单位略有不同,但是无论是“1 P OpS”、“1 PFLOPS FP16”、“1 Petaflops”还是“1 P”,都相当于每秒可进行一千万亿次运算。

2022年开年以来,国内已经有一个新投运的智算中心,是位于上海的商汤 科技 人工智能计算中心。

很多城市是正在建设智算中心,从2021年1月1日到2022年2月15日,全国共有至少18个城市签约、开工、招标、计划建设智算中心项目,其中已经宣布开工建设的至少有6个城市,分别是合肥、庆阳、大连、沈阳、深圳、长沙。

截至目前,2021年和2022年各地规划或已经开始建设的智算中心情况

对比2021年之前的各地智算中心建设情况来看,2020年之前的智算中心项目更少一些。不过,部分2021年开工建成的智算中心其实在2020年就已经立项招标和预研规划,比如武汉人工智能计算中心项目。

智算中心并不是2021年才有的新类型数据中心,我国较早建成的智算中心还有深圳鹏城云脑、旷视芜湖AI超算中心等。2018年,鹏城云脑I初步建成并上线运行,算力达到100 PFLOPS(1 PFLOPS相当于每秒运算能力为一千万亿次)。

从全国智算中心的地理位置分布来看,目前,东部、中部和西部都有省市在部署智算中心。作为数据中心的一种,各地的智算中心建设规划难免会受到“东数西算”政策的影响。

特别是国家发改委等部门在《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件中指出:“原则上,对于在国家枢纽节点之外新建的数据中心,地方政府不得给予土地、财税等方面的优惠政策。”智算中心作为各地政府主导的项目,极有可能受到影响,但是并不一定会大批向西部地区迁移。因为智算中心主要面向AI相关产业,这些业务对于网络通信的要求也比较高,在这方面,东部地区略有优势。

中科曙光高级副总裁任京暘告诉智东西,“东数西算”工程会促进智算中心的发展,预计在全国一体化算力网络国家枢纽节点建设中,规划的数据中心项目会配置一定规模的智能算力,有些项目还可能是直接以智算中心的形态出现。

另外,从这些智算中心公布的算力规模情况来看, 100P算力是很多智算中心的起步目标 。

一般认为,100P大约相当于5万台高性能电脑的算力。拿科研场景为例,天文学家在20万颗天体的星空图中要定位某种特征星体,如果算力不够,耗时可能要超100天,如果拥有100P算力,定位星体所需时间仅为100秒。

任京暘说,一般智算中心提到的100P是指FP16或INT16,即半精度算力,就现阶段而言,以100P起步,能实现比较大的规模效益。

从需求角度看,智算中心作为城市级公共算力平台,要满足区域内政府、企业、高校等各类用户的算力需求,起步规模不宜过小,否则无法支撑类似大模型训练等大算力需求,也不足以发挥集约共享的规模效益。

任京暘补充道,从投资角度看,智算中心发展尚处于初期阶段,建设、运营、应用与生态建设等投入较大,需要结合地方财政承受能力做出合理评估,根据实际需求进行适度的超前部署。

大部分智算中心都是分期建设的,建成一期,就可以投入运营一期,后期再根据运行情况和产业发展需求进行二期、三期建设。

例如武汉人工智能计算中心,该智算中心在2021年5月完成了一期项目建设工作,并开始为企业提供AI算力,但很快饱和了。于是,武汉人工智能计算中心又进行了二期项目扩容工作,将算力规模从100P扩容到200P。武汉人工智能计算中心相关负责人在接受媒体采访时说,现在二期算力也接近饱和,随着准备进行进一步的算力扩容工作。

武汉人工智能计算中心

根据各智算中心的数据,至少数百家企业已经签约智算中心,例如武汉人工智能计算中心已经为多家高校和科研院所、100多家企业提供算力,南京智能计算中心已经吸引超40家产学研机构入驻。

一个智算中心可以同时支撑的产业场景很多,例如自动驾驶、智慧医疗、智慧城市、智慧交通、智慧矿山、智能制造等等,主要看当地的需求,一般都是为了支撑当地的优势产业更好发展。比如,青岛靠近海域,其人工智能计算中心招标文件就有提到青岛人工智能计算中心要支撑青岛优势产业集群,比如智能家居、智能制造等产业智能化持续领先,并着重强调支撑当地智慧海洋经济的发展。

上述智算中心都并不局限于支撑单一产业。不过,也有一些城市选择建设针对性更强的智算中心,像山西晋城建设了专门面向煤炭行业的智算中心(智能矿山创新实验室创新成果计算中心)。该智算中心由华为、晋能控股等企业参与建设,主要是为推动山西煤矿智能化建设。

智能矿山创新实验室创新成果计算中心

在智算中心建设过程中,市政和建筑设计企业背后的AI和ICT企业是重要角色,例如曙光、华为、浪潮、腾讯、商汤 科技 等企业。

在 探索 智算中心过程中,作为计算领域的头部玩家曙光提出了“5A级”智算中心建设方案,从开放、融合、绿色、普惠、服务五个方面,进行智算中心相关的实践和 探索 。目前,曙光5A级智算中心已在广东珠海、安徽合肥、浙江桐乡等地陆续落成,其江苏昆山等地的智算中心也进入建设阶段。

合肥先进计算中心

曙光智算中心会采用兼容多种芯片、算法、模型等的多元协作方式以实现多元算力提供。例如曙光参建的合肥先进计算中心不仅能提供智能算力,还能提供高性能计算所需算力。在降低智算中心、数据中心能耗方面,曙光研发有浸没式相变液冷技术,可使智算中心的PUE值降至1.04到1.05。

华为应该是比较早尝试智算中心的企业,而且也是参与各地智算中心建设最多的企业之一。华为升腾计算业务总裁许映童曾在2021世界人工智能大会期间透露,华为希望在2021年内启动超20个智算中心建设。

包括“鹏城云脑II”、“武汉人工智能计算中心”在内的几个华为承建的智算中心项目几乎都是使用华为的Atlas 900 AI集群架构,来实现AI算力供给的。Atlas 900 AI集群架构是由数千颗升腾910 AI处理器构成,其总算力达到256P 1024 PFLOPS FP16。

鹏城云脑

浪潮在智算中心方面也有多年的研究,无论是智算中心运行过程中算力生产、算力聚合、算力调度还是算力释放环节,浪潮都分别有相应的技术和软硬件支撑。南京智能计算中心就是采用了浪潮AI服务器算力机组和寒武纪思元270和思元290智能芯片及加速卡。

南京智能计算中心

作为数据中心行业的重要玩家,腾讯将其在数据中心方面的 探索 应用在了智算中心建设中,像腾讯智慧产业长三角(合肥)智算中心建设中就用到了腾讯第四代T-Block等高端模块化技术,支持项目快速交付。腾讯第四代T-Block等高端模块化技术就是将IT、空调等数据中心的各个功能模块化,以实现按需灵活配置。

商汤 科技 是从2018年开始进行人工智能计算中心预研工作的,2020年7月开始商汤 科技 人工智能计算中心建设工作。2022年1月24日,商汤 科技 人工智能计算中心启动运营。商汤 科技 人工智能计算中心的峰值算力高达3740 Petaflops,这背后包含了商汤 科技 的多种技术突破,包括高性能计算、分布式调度、硬件/软件协同设计等。

商汤 科技 人工智能计算中心

我们通过调查2021年以来建设和建成的智算中心,发现越来越多的城市已经开始了智算中心建设。这体现了各地对于AI产业的重视。从一些现有的智算中心建设工期来看,一般一期建设大概时间在半年到一年不等,今年可能会有更多在建的智算中心建成并投运。另外,“东数西算”工程也会对新的智算中心的规划、建设产生多重影响。

目前参与智算中心建设的企业相对有限,随着各地对智算中心建设需求的增加以及一些新玩家加入,智算中心领域玩家可能会面临更激烈的竞争。

上一篇:美股周三:三大股指均跌超1%,法拉第未来涨逾25%,新东方涨超8%(周五欧美股市全线收涨 )
下一篇:技嘉AORUSB760系列DDR5黑科技,一键优化延迟更低带宽更高

相关推荐

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。