“它不是负担。”
宁畅首席技术官赵雷在英特尔&宁畅节能减排案例分享会上如是形容“碳中和”。
他认为,碳中和不是大数据中心的负担。现在,大数据中心做的所有事情都包含了节能减排,并以此为行业导向。“我们天然就是这样的。整个行业天然就是这样。”
与传统的耗能大户比如电力行业、钢铁、水泥、电解铝相比,大数据中心的年用电量,是“小巫见大巫”。工信部数据显示,截至2017年底,数据中心年用电量已占全社会用电的2%左右。
从能效水平上来看,截至2019年年底,全国超大型数据中心平均PUE为1.46(Power Usage Effectiveness,电源使用效率),大型数据中心平均PUE为1.55。PUE是评价数据中心能源效率的核心指标。其基准是2,越接近1表明能效水平越好。
目前,数据中心仍在快速增长中。
《全国数据中心应用发展指引(2020)》显示,截至2019年年底,我国在用数据中心机架总规模达到314.5万架,与2018年底相比,增长39%。超大型数据中心机架规模约117.9万架,大型数据中心机架规模约119.4万架,与2018年底相比,大型、超大型数据中心的规模增速为41.7%。另据国家节能中心发布的统计数据显示,2012-2016年,我国数据中心的年耗电量增速始终维持在12%以上,最高达16.8%。
2019年2月,工信部、国家机关事务管理局、国家能源局出台《关于加强绿色数据中心建设的指导意见》,要求到2022年数据中心平均能耗基本达到国际先进水平,新建大型、超大型数据中心的PUE达到1.4以下。1.4意味着什么?需要有额外的40%的能量被平白无故消耗掉。据业内人士预计,未来PUE将进一步降低至1.3以下。
另外,CPU的功耗也在逐渐上升。以英特尔为例,2009年Nehalem的功耗为130W。2021年Icelake的功耗为270W。未来,CPU性能功耗比将持续提升,这是产业发展的必然趋势。而与之伴随的是上升的功耗。
在内增(服务器CPU功耗持续增长)外压(政府对大数据中心出台的限制政策)之下,如何在性能功耗比在持续上升的情况下,降低PUE?
据赵雷介绍,业内有三种解决思路:自然风冷、冷板式液冷服务器以及浸没式液冷服务器。
从长期来看,液冷设计是行业公认的技术方向。其中,以冷板式液冷服务器和浸没式液冷服务器为主。冷板式液冷服务器将会更早地推向市场,而浸没式液冷服务器在特定场景下更容易发挥其作用。
目前,之所以浸没式液冷服务器在业内应用较少,是因为其运维压力。“大缸式”和“高压锅式”是液冷服务器采用的两种方式。但最常见的是“大缸式”,带给运维不小压力。因为开缸补液时,昂贵的液体难免挥发。现在,数据中心在探索“计算、存储、网络分离”。分离得越干净,浸泡液冷的优化效果也就越好。
赵雷认为目前,最适合泡的就是CPU或者GPU。可以把能耗最高的CPU、GPU部分采用“高压锅式”的方法进行浸泡,其它部分则通过解耦的办法通过风冷或其它方式解决。
目前,英特尔CXL技术让“分离”变得可行。“它能够很好地去支持未来的像内存池化,像GPU的池化等等这些方案,是给我们提供了好的思路。”据了解,英特尔给宁畅提供了大量的基础性的素材和很多原始的基础数据,其中包括整个CPU在内部结构和封装方面的数据、CPU的热阻和热管理的模型以及周边的元器件选型和元器件在不同液体下耐受的方案和素材。
宁畅是英特尔长期合作伙伴之一。据了解,两公司一直保持密切沟通。去年,英特尔发布RISE(履责Responsible、包容Inclusive、可持续Sustainable、赋能Enabling)战略及目标,希望通过自身的努力和合作伙伴的协作,努力创造一个更负责任、包容和可持续的未来。也正因这一承诺与战略,英特尔与宁畅一起研究如何改进产品封装,以满足冷板式液冷、浸没式液冷的要求。英特尔还会投入大量资源,优化性能、功耗、散热等的设计工作。
赵雷也提到,宁畅的解决方案中有很多英特尔的技术。比如CPU技术、XPU或者GPU的技术、One API的技术和AVX512等。选择与英特尔合作,除了宁畅欣赏英特尔的价值观(水利万物而不争)和生态布局外,赵雷还提到选择英特尔相当于与最主流的商业市场进行对接,“我们可以尽可能快地在英特尔的支持和帮助下,推出产品,服务客户。获得很多技术上的比较优势。”
前面提到,内增,也即CPU性能功耗比持续上升是不可避免的。
从科技行业发展、商业逻辑的角度来看,行业要么提升效能,要么降低能耗,要么两个都做。无论做哪一个,对于性能功耗比或者单位时间内可运算计算量,都是一个正向的推进过程。
但性能跟功耗没有严重冲突。
对于服务器的业务定义来说,用户希望它在某一个时间段内,基于某一个性能完成固定的计算任务。这就衍生出一个问题:使用什么样的功耗,多长时间内把它算完?用一千瓦的功耗算一分钟,还是用两百瓦算十分钟?
不管是AI训练还是跑一个数据库查询,或者是网页搜索,都算是固定业务。在算法一定的情况下,固定任务的计算量是一定的。随着CPU性能的逐渐提升,单位的时间内可以算更多的东西,亦或者同样计算量用时更短。这就回到了刚才的问题,虽然CPU或者其他电子元器件的功耗持续增长,但是它在完成固定任务计算时,消耗时间变短。总体来说,还是划算的。
“功耗提升是不是意味着碳排放变多了,其实不是。”赵雷说。“我们发现一千瓦算一分钟,反而消耗的电能是不高的。从这个角度来说,性能跟功耗并不冲突,只要能够在有限时间内解决系统的散热问题,系统就能在尽可能短的时间内完成指定作业。这是效率最高的,或者说是综合成本最低的。”
这反映了宁畅或者整个数据中心这个行业,对于节能减排、碳排放的角度。
“对于宁畅、同业企业来说,碳中和不是负担。”