×
大家都在搜

微信扫码登录

使用验证码登录

QQ登录

只需一步,快速开始

+发表新主题
分享
开启左侧

最新:一家对话锐捷网络米青:算力成AI发展基础,智算中心能提供怎样价值

[复制链接]

最新:一家对话锐捷网络米青:算力成AI发展基础,智算中心能提供怎样价值

岁月无声 发表于 2024-10-11 20:03:21 浏览:  20 回复:  0 [显示全部楼层] 回帖奖励 |倒序浏览 |阅读模式
(作者|贾桂鹏)

当下,AI大模型的参数已升级至万亿级别,各个大模型庞大的训练任务需要由大量GPU服务器组成的算力集群来协作完成。同时算力的提升对络提出了超大规模、超高带宽、超强可靠性的需求,为AI模型训练提供强有力的支持。







面对AI浪潮,各个行业纷纷抢滩布局,热度急剧升温,同时在我国新基建东数西算等工程的加持下,算力络这条全新赛道涌进越来越多的参与者。据D'OG比较新报告显示,到2027年20%的以太数据中心交换机端口将连接到加速服务器,以支持AI的工作负载。

随着新的生成式AI应用的兴起,预计推动数据中心络市场未来五年销量累计收入超过1000亿美元。算力基础设施和络基础设施的整体布局与技术架构迎来革命性变化,算基础设施成为算力产业发展的关键所在,其迭代演进亟须加速。

在此背景下,元宇宙新声有机会采访到锐捷络数据中心络事业群DCNBU总经理米青,与他一起探讨了AIGC技术发展为企业带来了怎样的改变,锐捷络智算中心如何赋能企业数字化发展。





(锐捷络数据中心络事业群DCNBU总经理米青)



为什么是锐捷络
成立于2022年的锐捷络,跟随着数字经济持续加速发展驭风而行,深耕络设备、络安全产品及云桌面解决方案大领域,凭借强大的研发创新力、贴近用户的产品方案以及专业捷的服务能力,现已发展成为ICT及云计算基础设施头企业。根据IDC以太交换机市场跟踪报告2023Q3数据分析显示,锐捷络数据中心交换机在互联行业市场份额排首。

而在AI时代,我们也看到锐捷络继续秉承着创新发展的路径,凭借敏锐的行业洞察与深厚的技术积淀,进一步推动行业发展,行稳而致远。



生成式AI如何改变企业发展
目前,许多企业数字化转型已进入深水区,数字技术与传统行业的简单叠加,已不能满足传统垂直行业的发展需求,企业在各自领域面临新机遇和新挑战,急需向广度和深度进发。

生成式AI作为当前新兴的人工智能技术发展趋势,是企业加速数字化转型的重要选择之一。部分行业代表性企业已在生产运营中部署应用生成式AI,取得了初步成效。







米青认为:AI技术对于企业发展来说是非常重要的机会。

首先,这些技术能够帮助企业现自动化和智能化,提高生产效率、降低成本;其次,这些技术还能为企业带来更丰富、更个性化的用户体验。

米青表示:AI的普及和深化将可能从以下几个方面深刻改变人类生活:智能家居、健康医疗、智能交通、工作助手、虚拟娱乐、人类增强等等。这些都将让我们的生活更加便利和舒适。进而,还将影响到社会的方方面面,包括经济结构、劳动力市场、城市规划、法律法规乃至伦理道德观念。







那么,对于更多希望加数字化转型步伐的企业而言,下一步应该如何用上、用好生成式人工智能呢?

首先要做到价值认同。要让数字化转型成为企业管理者与企业员工的共识,要充分认识、认可生成式人工智能。生成式AI能够在客户服务、销售市场、知识管理以及辅助决策方面助力企业现大幅降本增效、降低商业试错成本。

在AI商业繁荣的大趋势下,生成式人工智能正变得更加普惠,企业使用成本持续降低,企业员工学习门槛持续降低。

其次要找到正确路径。对于企业而言,选择使用大模型和生成式AI来提升数字化能力,需要遵循科学的理论方法。企业需要根据自身的行业特点和专业知识,与基础大模型合作,将特定场景的专业数据加入基础大模型进行再训练和微调,研发出专属大模型或场景大模型。

再次要防范风险。生成式AI作为一种新兴的技术,在赋能产业高质量发展的同时,也存在许多风险,如隐私保护、结果失控、数据露等。







另外,元宇宙新声认为,上述一切的发展前提是算力的发展,我们要考量算力是否能够满足人工智能的需求,因此,如何在AI服务这个业务模式中保持强有力的竞争力,提升集群的GPU效率变得尤为关键。



AI发展势如破竹,但算力仍是其根基
随着生成式AI的发展,以及大模型参数量的提升,对算力的消耗也在明显增加。大模型训练对于算力的需求也符合类似摩尔定律的特征,从每3-4个月算力消耗翻倍到每2个月算力消耗翻倍。随着模型迭代速度越来越,对算力的需求也越发紧迫。

以CGPT为例,从OAI的官方声明可以看出,CGPT4的规模远远超过了CGPT3,并且使用更强大的硬件GPU(H100)。这意味着CGPT4的训练时间和计算成本都非常高,需要更多的时间和资源来完成。







可以看出影响一个模型的训练时长主要因素在于GPU的利用率,以及GPU集群处理能力,而这些关键指标又与络效率密切相关。络效率是影响AI集群中GPU利用率的一个重要因素。

在AI集群中,GPU通常是计算节点的核心资源,因为它们可以高效地处理大规模的深度学习任务。然而,GPU的利用率受到多个因素的影响,其中络效率是一个关键因素。







众所周知,AI集群通常由多个计算节点和存储节点组成,这些节点需要频繁地进行通信和数据交换,如果络效率低下,这些节点之间的通信将会变得缓慢,这将直接影响到AI集群的算力。

米青表示:企业要将更多资源投入到提升算力使用效率上,其中包括模型及并行通信算法的研发以及高效算力络的构建。

但是,我们看到影响络通信效率的因素抛开硬件性能的限制,针对端处理时延、内部排队时延和丢包重传时延大动态因素化络拥塞和时延,则成为提升AI集群络通信性能比较具成本效益的方法。基于这些思考,锐捷络致力于提升通信带宽利用率,降低动态时延以及现损的络传输,以提升AI集群络通信性能。

在此背景下,锐捷络面向下一代AI云服务的智算中心络建设,推出了锐捷络AI-FF智算中心络解决方案。那么它又有怎样的价值呢?



智算中心的价值几何
锐捷络发布的AI-FF智算中心络解决方案,采用NCP+NCF为基础模块横向扩展的级络架构,并基于高性能芯片技术,通过将数据流切分成等长的C并负载到所有链路,提升络带宽利用率;基于VOQ+C的端到端流控机制现与业务关的损自闭环络,助力业务算力提升。







从规模上来看,AI-FF智算中心络解决方案采用级组,可支持17到32个400G的端口。锐捷络在国内首发了400G的NCP和NCF设备,以支持AIGC络的大接入带宽。NCP设备RG-S6930-18QC40F1,支持18口400G的业务口,并支持40口200G的F内联口,用于和NCP之间的互联。NCF设备RG-X56-96F1,支持96口200G的F内联口。我们可以看到,该解决方案可满足不同业务需求,具有可扩展性和灵活性。







米青表示:锐捷AI-FF智算中心络解决方案通过创新性地应用链路负载和拥塞控制技术,根本性解决络中的拥塞冲突问题,提升GPU之间通信效率,进而提升GPU计算效率,加速企业大模型应用的推出。

而且,在研发AI-FF智算中心络解决方案的同时,锐捷络还打造了分布式OS,旨在简化部署,提高系统可靠性。传统的DDC(DDC,分布式分散式机箱)由于控制面集中,一旦NCC(NCC络云控制器)失联,就会影响整个络,从而影响整个业务流程。另外,由于版本不兼容,如果部分设备需要升级,就会面临巨大的运维难题。

锐捷络AI-FF智算中心络解决方案采用去中心化的分布式OS,现了控制面与管理面解耦。即使管理平台出现问题,也不会影响整个络的运行。与此同时,它还解决了兼容性问题,设备可以单独升级,大幅降低了运维难度。

米青解释道:我们在研发AI-FF智算中心络解决方案时,打造了分布式OS,意在现分布式方案架构的统一管理基础上,比较大程度降低系统性风险,提升AI训练络的长期稳定运行。

而在谈到锐捷智算中心比较大的势时,米青表示:锐捷拥有独有的RALB、AILB等络负载均衡技术,在智算络方案中提供比较性能。

可以预见,未来,随着AI对于算力需求持续增加,锐捷将持续精进AIF智算中心络解决方案,在降低时延、提高在计算性能、现端融合等方面持续突破,打造高速互联、弹性可扩展、绿色节能的下一代AI云服务智算中心络。

可以预见,在全球互联流量不断增长和数据应用需求日益多样化的背景下,锐捷将持续精进AI-FF智算中心络解决方案,在降低时延、提高在计算性能、现端融合等方面持续突破。未来,锐捷络还将通过持续的技术研发和产品创新,继续为全球的数据中心提供更高效络解决方案,在AI时代助力各行业现速发展。



采访小记
这是我们首次与总交流,而且还是线上形式,多少会显得有一些仓促,但我们还是在沟通的过程中明显感受到他在专业领域上的积累,比如他对于AI在企业端价值的体现、算力在AI发展过程中的重要性等都有着非常独到的看法和解读,也为我们提供了很多不同角度来观察科技的发展,这也是我们在交流过程中比较大的收获。

在采访比较后,当总在谈到锐捷络在未来AI时代的赋能时,我们也感受到了他对于AI发展的期待和对锐捷络产品和解决方案的信心。我们也希望,未来锐捷络也能像总展露出的信心一样勇往直前,利用自己技术赋能千行百业。





这意味着无线ap是行业的风向标,能够给人们带来很大的自信心。锐捷路由器产品系列包括,核心路由器、汇聚路由器、接入路由器、移动路由器、中小网络企业级路由器以及一系列路由器应用软件产品,如需进行路由器选购或想要了解更多详细的路由器方案、路由器推荐信息,欢迎咨询锐捷网络。https://www.ruijie.com.cn/cp/wx-fzhxwxjrd/