当前位置:贝登书院>其他类型>大白话聊透人工智能> 一文看懂光模块:从“数据快递员”到AI时代的“基建核心”
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

一文看懂光模块:从“数据快递员”到AI时代的“基建核心”(3 / 5)

、灰尘,所以光模块的外壳要“防水、防尘”。中际旭创的电信光模块,外壳防护等级达到了ip67(最高级别的防护之一),即使被雨水淋到、被灰尘覆盖,也不会影响内部元件的工作。

3 工业光模块:追求“硬、准、灵”

工业场景的光模块,比如工厂的自动化生产线、智能电网、矿山监控,核心要求是“抗冲击、传得准、灵活适配”。

“抗冲击”:工厂里的机器会震动,矿山的环境也很恶劣,光模块要能承受冲击和震动。比如中际旭创为工业场景做的25g光模块,能承受1000g的冲击(相当于从1米高的地方掉到水泥地上),还能在500hz的震动环境下工作,不会因为震动导致元件松动。

“传得准”:工业场景里的数据传输不能出错,比如智能电网的电流、电压数据,要是传输时出错,可能会导致电网故障;工厂生产线的传感器数据要是错了,会导致产品质量问题。所以工业光模块的“数据准确率”要求极高,通常是“误码率低于10的-12次方”(相当于传1万亿条数据,最多错1条)。

“灵活适配”:不同工业场景的接口、电压不一样,光模块要能灵活适配。比如中际旭创的工业光模块,支持多种接口(比如sfp+、qsfp28),还能适配12v、24v、48v等不同电压,不用为不同场景单独设计,大大降低了企业的采购成本。

四、ai时代:光模块为啥从“配角”变成“核心基建”?

在ai没火起来之前,光模块只是“数据传输的工具”,很多人没关注它;但ai时代到来后,光模块一下子变成了“核心基建”,甚至被称为“ai算力的血管”,这是为啥?

1 ai训练:需要光模块“喂饱”

ai大模型的训练,本质上是“让几万台gpu一起算数据”。比如训练一个千亿参数的大模型,需要把海量数据(比如几亿篇文章、几千万张图片)分到不同的gpu上,每个gpu算一部分,然后再把计算结果汇总、交换,反复迭代几十万次,才能训练出能用的模型。

这个过程中,gpu之间的数据交换完全依赖光模块:如果光模块速度慢,gpu就会“等数据”——比如gpu算完了自己的部分,却要等半小时才能收到其他gpu的结果,训练效率会极低;如果光模块速度快,比如用800g光模块,gpu之间的结果交换能在几秒内完成,训练时间会大幅缩短。

举个真实的例子:某ai公司用400g光模块训练一个百亿参数的模型,花了30天;换成中际旭创的800g光模块后,训练时间缩短到了18天,效率提升了40。而且模型越大,对光模块速度的要求越高——训练万亿参数的模型,必须用16t光模块,否则根本没法在合理时间内完成训练。

另外,ai训练的数据量还在指数级增长:2020年训练一个大模型需要几十tb的数据,2024年需要几百tb甚至几pb(1pb=1000tb)的数据,这就要求光模块的“容量”也要跟着涨,从400g到800g,再到16t,甚至未来的32t,只有这样才能“喂饱”gpu。

2 ai推理:需要光模块“不卡顿”

ai训练完后,要用来“干活”,比如你用ai写文案、生成图片、做语音翻译,这个过程叫“推理”。推理虽然不需要像训练那样多的gpu,但需要“实时响应”——你发出一个请求,希望几秒钟内就能收到ai的回复,这就需要光模块“快速传数据”。

比如你用ai生成一张“未来城市”的图片:你在手机上点击“生成”,请求会先传到ai数据中心的服务器,服务器里的gpu算出图片后,再通过光模块把图片数据传回到你的手机。如果光模块速度慢,比如用100g光模块,这个过程可能要5秒;用800g光模块,1秒内就能完成,你感觉不到任何延迟。

而且现在ai推理的“并发量”越来越大——比如某ai绘画工具,同时有10万人在用,每秒要处理几十万次请求,这就需要光模块能“同时传很多数据”,不能堵车。中际旭创的800g光模块支持“8通道并行传输”,就像一条8车道的高速路,能同时走8路数据,不会因为并发量高而卡顿。

3 ai集群:需要光模块“连得密”

ai数据中心里的gpu不是零散分布的,而是组成“集群”——比如一个集群有1024台gpu,这些gpu要通过光模块连接成一个“网络”,才能协同工作。这个网络的“密度”(每台gpu连接的光模块数量)直接影响ai的算力。

以前的gpu集群,每台gpu可能只连1个光模块,能和几十台其他gpu通信;现在的ai集群,每台gpu要连4个甚至8个光模块,能和几千台其他gpu通信,这样才能处理更复杂的模型。比如英伟达的dgx h100集群,每台服务器装8块gpu,每块gpu连2个800g光模块,整个集群能支持几千台gpu协同工作,这背后就是光模块的“高

上一页 目录 +书签 下一页