,但很多参数其实是冗余的,也就是“没用的”,只是为了追求参数数量而堆砌,并没有实际作用。而且,参数越多,模型的训练成本、运行成本也越高:训练一次可能需要花费几千万甚至上亿元,运行时需要大量的算力支持,普通企业和开发者根本用不起。
而ernie 45 vl只用280亿参数,就实现了接近顶级大模型的性能,不仅训练成本和运行成本低了很多,而且普通的服务器甚至高端电脑都能运行,大大降低了使用门槛。对中小企业来说,以前可能因为成本太高,用不起大模型,现在有了ernie 45 vl,花很少的钱就能享受到接近顶级的ai能力,能快速提升自身的业务效率。
(三)开源属性:人人都能用,加速ai普及
还有一个重要优势是“百度开源”。开源就是百度把这个模型的核心技术、代码公开,任何人都能免费下载、使用、二次开发,不用支付高额的授权费用。
以前的很多顶级大模型都是闭源的,只有少数大企业能拿到授权,中小企业和个人开发者根本用不起。而ernie 45 vl开源后,不管是创业公司、科研机构,还是普通的开发者,都能拿来用:比如创业公司可以用它开发图片识别app、智能客服系统;科研机构可以用它做ai技术的研究和实验;个人开发者可以用它做各种有趣的小应用,比如图片转文字、智能翻译工具等。
开源不仅能让更多人受益于ai技术,还能促进整个ai行业的发展。因为开发者们可以在ernie 45 vl的基础上,根据自己的需求进行优化和升级,比如针对教育领域,开发专门的“学生作业批改模型”;针对农业领域,开发“农作物病虫害识别模型”;针对工业领域,开发“设备故障检测模型”等。这些二次开发的应用,能让ai技术渗透到更多行业,解决更多实际问题。
而且,开源还能让模型变得更强大。因为全世界的开发者都能给百度反馈使用过程中遇到的问题,百度可以根据这些反馈不断优化模型,迭代升级,让它的性能越来越强。就像一个开源的软件,比如lux系统,因为有全世界开发者的参与和贡献,才变得越来越完善、越来越好用。
七、异构混合专架架构的“隐藏优势”配多场景,不用反复换模型
前面咱们讲过异构混合专架架构的基本原理,其实它还有一个“隐藏优势”——灵活适配多场景,不管是处理文字、图片,还是复杂的跨模态任务,甚至是专业领域的任务,都能轻松应对,不用用户反复更换模型。
(一)多场景无缝切换:一个模型搞定所有需求
以前的ai模型大多是“单一功能”的:处理文字的只能处理文字,比如只能做翻译、写文案;处理图片的只能处理图片,比如只能做图片识别、美颜;处理医疗影像的只能处理医疗影像,不能做其他事情。如果用户有多个需求,比如既想让模型分析一张图片,又想让它根据图片写一段文案,还想让它把文案翻译成英文,就需要同时使用多个模型,操作很麻烦,而且不同模型之间的信息不能互通,体验很差。
而ernie 45 vl的异构混合专架架构,整合了文字、视觉、跨模态等不同类型的“专家”,能实现多场景无缝切换。比如你可以先给它发一张风景图片,让它“描述图片里的内容”;然后让它“根据图片描述写一首诗”(文字创作任务);再让它“把这首诗翻译成英文”(翻译任务);最后让它“分析这首诗的意境和修辞手法”(文学分析任务)。这一系列任务,都能在同一个模型里完成,不用切换其他工具,而且模型能记住前面的操作,比如写的诗和翻译结果,分析意境时会结合这些内容,结果更准确。
这种多场景适配能力,对普通用户来说,意味着不用下载很多app,一个工具就能满足各种ai需求;对企业来说,不用购买多个不同功能的ai系统,只需要部署一个ernie 45 vl,就能处理客服、文案、设计、数据分析等多个岗位的工作,大大降低了企业的运营成本。
(二)专业领域快速适配:不用从零开发专业模型
除了通用场景,ernie 45 vl还能快速适配各种专业领域,比如医疗、法律、教育、工业等,不用像以前那样,针对每个专业领域都从零开发一个模型。
这是因为它的异构混合专架架构支持“模块化升级”,也就是可以在现有架构的基础上,增加专业领域的“专家模块”,就能快速具备该领域的专业能力。比如想让它具备法律领域的能力,只需要增加一个“法律专家模块”,输入大量的法律法规、案例数据进行训练,它就能学会分析合同、解答法律问题;想让它具备教育领域的能力,增加一个“教育专家模块”,输入大量的教材、题库数据,它就能学会批改作业、解答学生的疑问。
以前开发一个专业领域的ai模型,需要投入大量的人力、物力和时间,可能需要几个月甚至几年才能完成,而且成本很高;现在有了ernie 45 vl,只需