华为发布盘古大模型3.0,“没时间做诗”

2023-07-07 17:13:17

(编辑/吕栋)


(资料图片)

7月7日,第六届世界人工智能大会(WAIC)正在上海如火如荼地进行,大模型是绝对的关键词,而正当各大厂商的大模型“争奇斗艳”时,华为却推出了一个“不做诗”的大模型。

“盘古大模型不做诗,也没有时间做诗,因为它要深入到各行各业中去,让AI赋予各行各业价值。”7月7日下午,在华为开发者大会2023(Cloud)上,华为云CEO张平安说道。

张平安在会上宣布,盘古大模型3.0正式发布,该模型是一个完全面向行业的大模型系列。

华为云CEO张平安

据他介绍,盘古大模型3.0包括“5+N+X”三层架构:

L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,都可以供客户和伙伴企业直接调用。

L1层是N个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型。L2层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供“开箱即用”的模型服务。

据披露,盘古大模型采用完全分层解耦设计,可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。在L0和L1大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

“盘古为行业而生,就要为行业着想”,张平安表示 ,如今盘古大模型已在金融、金融、制造、医药研发、煤矿、铁路等诸多行业发挥着巨大价值。

“大家知道其他人都可以使用行业里最成熟的GPU,最成熟的软件,但是华为不可以,所以华为只能依赖我们自己打造的AI的根技术。”他说道。

张平安透露,华为在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台,以及异构计算架构CANN、全场景AI框架昇思MindSpore,AI开发生产线ModelArts等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。

“基于华为的AI根技术,大模型训练效能可以调优到业界主流GPU的1.1倍。”他表示。

算力是训练大模型的基础。

在本次大会上,张平安宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外,还支持Pytorch、Tensorflow等主流AI框架。同时,这些框架中90%的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。例如,美图仅用30天就将70个模型迁移到了昇腾,同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速,AI性能较原有方案提升了30%。

此外,在大模型训练过程中经常会遇到GPU故障,研发人员不得不经常重启训练,时间长,代价大。昇腾AI云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。

本文系观察者网独家稿件,未经授权,不得转载。

关闭
精彩放送