一文看懂光模块：从“数据快递员”到AI时代的“基建核心”（3 / 5）

、灰尘，所以光模块的外壳要“防水、防尘”。中际旭创的电信光模块，外壳防护等级达到了ip67（最高级别的防护之一），即使被雨水淋到、被灰尘覆盖，也不会影响内部元件的工作。

3 工业光模块：追求“硬、准、灵”

工业场景的光模块，比如工厂的自动化生产线、智能电网、矿山监控，核心要求是“抗冲击、传得准、灵活适配”。

“抗冲击”：工厂里的机器会震动，矿山的环境也很恶劣，光模块要能承受冲击和震动。比如中际旭创为工业场景做的25g光模块，能承受1000g的冲击（相当于从1米高的地方掉到水泥地上），还能在500hz的震动环境下工作，不会因为震动导致元件松动。

“传得准”：工业场景里的数据传输不能出错，比如智能电网的电流、电压数据，要是传输时出错，可能会导致电网故障；工厂生产线的传感器数据要是错了，会导致产品质量问题。所以工业光模块的“数据准确率”要求极高，通常是“误码率低于10的-12次方”（相当于传1万亿条数据，最多错1条）。

“灵活适配”：不同工业场景的接口、电压不一样，光模块要能灵活适配。比如中际旭创的工业光模块，支持多种接口（比如sfp+、qsfp28），还能适配12v、24v、48v等不同电压，不用为不同场景单独设计，大大降低了企业的采购成本。

四、ai时代：光模块为啥从“配角”变成“核心基建”？

在ai没火起来之前，光模块只是“数据传输的工具”，很多人没关注它；但ai时代到来后，光模块一下子变成了“核心基建”，甚至被称为“ai算力的血管”，这是为啥？

1 ai训练：需要光模块“喂饱”

ai大模型的训练，本质上是“让几万台gpu一起算数据”。比如训练一个千亿参数的大模型，需要把海量数据（比如几亿篇文章、几千万张图片）分到不同的gpu上，每个gpu算一部分，然后再把计算结果汇总、交换，反复迭代几十万次，才能训练出能用的模型。

这个过程中，gpu之间的数据交换完全依赖光模块：如果光模块速度慢，gpu就会“等数据”——比如gpu算完了自己的部分，却要等半小时才能收到其他gpu的结果，训练效率会极低；如果光模块速度快，比如用800g光模块，gpu之间的结果交换能在几秒内完成，训练时间会大幅缩短。

举个真实的例子：某ai公司用400g光模块训练一个百亿参数的模型，花了30天；换成中际旭创的800g光模块后，训练时间缩短到了18天，效率提升了40。而且模型越大，对光模块速度的要求越高——训练万亿参数的模型，必须用16t光模块，否则根本没法在合理时间内完成训练。

另外，ai训练的数据量还在指数级增长：2020年训练一个大模型需要几十tb的数据，2024年需要几百tb甚至几pb（1pb=1000tb）的数据，这就要求光模块的“容量”也要跟着涨，从400g到800g，再到16t，甚至未来的32t，只有这样才能“喂饱”gpu。

2 ai推理：需要光模块“不卡顿”

ai训练完后，要用来“干活”，比如你用ai写文案、生成图片、做语音翻译，这个过程叫“推理”。推理虽然不需要像训练那样多的gpu，但需要“实时响应”——你发出一个请求，希望几秒钟内就能收到ai的回复，这就需要光模块“快速传数据”。

比如你用ai生成一张“未来城市”的图片：你在手机上点击“生成”，请求会先传到ai数据中心的服务器，服务器里的gpu算出图片后，再通过光模块把图片数据传回到你的手机。如果光模块速度慢，比如用100g光模块，这个过程可能要5秒；用800g光模块，1秒内就能完成，你感觉不到任何延迟。

而且现在ai推理的“并发量”越来越大——比如某ai绘画工具，同时有10万人在用，每秒要处理几十万次请求，这就需要光模块能“同时传很多数据”，不能堵车。中际旭创的800g光模块支持“8通道并行传输”，就像一条8车道的高速路，能同时走8路数据，不会因为并发量高而卡顿。

3 ai集群：需要光模块“连得密”

ai数据中心里的gpu不是零散分布的，而是组成“集群”——比如一个集群有1024台gpu，这些gpu要通过光模块连接成一个“网络”，才能协同工作。这个网络的“密度”（每台gpu连接的光模块数量）直接影响ai的算力。

以前的gpu集群，每台gpu可能只连1个光模块，能和几十台其他gpu通信；现在的ai集群，每台gpu要连4个甚至8个光模块，能和几千台其他gpu通信，这样才能处理更复杂的模型。比如英伟达的dgx h100集群，每台服务器装8块gpu，每块gpu连2个800g光模块，整个集群能支持几千台gpu协同工作，这背后就是光模块的“高