发布信息

行业大模型,开卷!这些公司都蜂拥而至...

作者:本站编辑      2023-07-30 21:08:52     28


大模型落地于场景,才能有持久的生命力。

来源:钛媒体(ID:taimeiti)

作者:张帅  编辑:盖虹达

   

如今,通用大模型喧嚣过后,行业模型正在逐渐占据声量,也正印证这一现实:类似ChatGPT等基础大模型赚的是“吆喝”,很大程度上是起到教育市场、塑造认知的作用,人工智能真正要落地、要赚到现在的钱,还要看行业大模型。

即便是海外市场,ChatGPT作为C端产品的部分属性,热度也已经逐渐减弱——根据SimilarWeb数据,前期ChatGPT的访问量增长率惊人,1月份的环比增长率为131.6%,2月份为62.5%,3月份为55.8%,在4月份明显放缓,环比增长率为12.6%,到了5月,这个数字已经变为了2.8%,并预计6月的环比增长率有可能为负数。

“相信我们当中的很多人都试用过了ChatGPT,也相信很多人试用过之后,已经将它放置一边了,因为目前它和我们的工作基本上还是割裂的,所以用用就放下了。但我依然希望大家不要‘起个大早,赶了晚集’,因为这是一个会带来颠覆性变革的范式革命。”微软(中国)公司首席技术官(CTO)韦青此前表示。

而基于ChatGPT或者大模型,打造的B端解决方案,正是解决大模型与场景割裂的良方。

国际上,微软、亚马逊等大厂也开始向企业级服务寻求商业化路径,开始进行多个行业的探索;国内,诸如百度、阿里、腾讯、华为都在快马加鞭加速行业大模型投入。

此外,很多全球范围内的行业龙头和创业公司也正在探索行业大模型的前景,近日,北京市科委、中关村管委会也发布了北京市首批10个人工智能行业大模型应用案例。此外,相关技术路线的企业并购金额也屡攀新高……

但大模型赛道还远远称不上拥挤——伴随技术迭代迎来飞跃式发展,各行各业正重新积累技术认知、塑造业务模式,一切才刚刚开始。

01

升级:千模大战

如果说基础模型是“百模大战”,行业大模型就是“千模大战”,就像树干长出树枝,每个基础大模型厂商都可以孵化数个行业大模型,大厂们的行动默契而一致。

“虽然大家对通用大模型期待很高,但它不一定是满足行业场景需求的最优解。”6月19日,在腾讯云行业大模型发布会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示。

在混元助手没有对外发布的情况下,腾讯率先发布了行业大模型,依托腾讯云TI平台打造的行业大模型精选商店,为客户提供MaaS一站式服务,帮助企业客户构建专属大模型及智能应用。从腾讯处获悉,有关C端的通用大模型,腾讯将在后续发布官方消息。

这一系列举措或许可以理解为,暂且不论混元基础大模型的效果和进展如何,优先发布行业大模型,是在客户急需的情况下,腾讯确保自身声量、抢占市场客户的必要之举。

更早之前,华为云人工智能领域首席科学家田奇提到,华为把大模型分成三个层级,L0、L1、L2,L0就是大家所说的基础通用模型,像GPT-3,在基础模型L0的基础上,加上行业数据,混合训练得到的行业大模型是L1。

然后再把L1针对具体下游千行百业的细分场景进行一些部署,得到细分场景的任务模型L2,为了尽快降低生产成本、提高效率,如何从行业大模型L1中快速生产L2模型,还有部署L2模型到端侧、边侧和云侧,这是非常重要的问题。

在7月即将举办的华为开发者大会的议程上可以看到,华为云将对盘古大模型如何从基础大模型炼成行业大模型进行一系列的解读和发布。

在今年的阿里云峰会上,阿里云CTO周靖人也表示:“今天不是所有的企业都需要从头开始训练,也不需要大家从头开始去做多种语料,包括大量的算力资源,从头开始做大模型的一系列定制,我们希望今天通义千问模型之上,结合企业的场景、企业的知识体系、企业的行业特殊需求,产生一个个企业专属模型。”

微软也在做自己的行业大模型。4月份,在国内,针对本土出海企业用户,微软Azure OpenAI Service国际版发布了首批三套面向零售电商、制造业和数字原生领域的Azure全球创新行业场景,集成GPT-3、GPT-4、Codex、DALL-E和企业级ChatGPT等五种大模型服务,帮助中国出海企业客户加速拓展全球市场。

“千模大战”一触即发,但真正进入大浪淘沙的阶段还为时尚早——整体来说,大模型还处于比较早期的发展阶段,尽管行业大模型集中涌现,但这条赛道显然有更大空间。

以金融行业大模型为例,其分成券商、保险、银行、新金融等不同领域,每个领域的下游任务又分成几十上百种的子任务。

“更重要的时刻,是接下来基于基础模型,通过SFT等机制和构建出能够高效适配下游任务,并且在金融行业或者其他行业模型的下游任务产生规模效应化的时候。”在阿里巴巴达摩院创新业务中心负责人陈海青看来,只是通过一些普适的非结构化数据做继续训练的行业大模型和场景,才算刚刚开始。

02

理智且现实的选择

如果企业要做一个千亿级参数的基础大模型,需要单机群万卡以上的算力,不仅要有GPU卡,还要把GPU的集群资源利用起来,大部分公司都无法做到。

而行业大模型显然更容易实现,同时也兼具更广阔的应用前景。

“大模型赋能千行百业,但是对千行百业的场景要非常理解,不能指望训练出千亿或者万亿大模型,企业用户拿去就好用”,澜舟科技创始人周明说。“从通用模型到行业模型,要针对用户的场景做最后一公里的事情。”

在评估基础大模型所需要的投入,权衡利弊与得失之后,企业客户迅速转向行业大模型,厂商的精力也更多投入于此。

汤道生坦言,目前通用大模型一般都是基于广泛的公开文献与网络信息来训练的,网上的信息可能有错误、有谣言、有偏见,许多专业知识与行业数据积累不足,导致模型的行业针对性与精准度不够,数据“噪音”过大。

但是,在很多产业场景中,用户对企业提供的专业服务要求高,容错性低。企业一旦提供了错误信息,可能引起巨大的法律责任或公关危机。因此,企业使用的大模型必须可控、可追溯、可修正,而且必须反复与充分测试才能上线。

“我们认为,客户更需要有行业针对性的行业大模型,再加上企业自己的数据做训练或精调,才能打造出实用性高的智能服务。企业所需要的是在实际场景中真正解决了某个问题,而不是在100个场景中解决了70%-80%的问题。”汤道生表示。

百度智能云副总裁朱勇也表示:“从国内和国外的情况可以看到,真正做通用模型的并没有那么多,市面上有一些厂商做的实际上是比较小型的模型。相反,领域模型特别重要,因为通用模型只具备通识能力,领域模型可以跟特定行业、领域的任务预期对齐,解决业务的实际问题,这个过程非常重要,但这个过程所需要的代价和资源远远小于从零开始做底层通用模型。”

同时他还判断,未来基础模型(底层通用模型)可能就几家,但是结合专业领域的数据、行业know how,上面会长出很多不同类型的领域模型,这些领域模型将来会非常繁荣,支撑上层繁荣的领域应用。

03

行业大模型怎么做

大模型本身就是一个新生事物,它改变了以往的软件开发范式,厂商们更需要一套新的工具链和平台,帮助客户更早更快打磨行业大模型。

随着大模型时代的到来,最后一公里的效率会大幅度提升。周明提到,新一代软件开发范式正在形成,主要是基于企业prompt提供很多功能引擎,用户现在是助手可以提高效率,在这个基础上把自己的用户体验想清楚、设计好,就很容易地构造一种新的应用。

事实上,打造行业大模型的成本没有通用标准。

首先,不同的基础大模型有不同的参数规格,软硬件投入要根据模型的基础参数和能力动态变化。如果是百亿参数,一台A100卡也能跑起来,就能开始下游任务。

当前比较集中的应用场景需求就属于这类,比如知识管理类中智能问答、智能写作、智能创作,还有泛互联网营销场景和代码生成的需求。

其次,成本跟数据量和应用方向有关。当前全球大模型定价都是以1000 Token为基础单位计费。如果企业的下游任务很简单,只需要几万token就能做好,那它的成本就非常低,需要的GPU卡就非常少。而构建一个行业大模型所需的数据量通常以G甚至以T为单位,那它的离线训练成本就会非常高。

04

谁在抢跑?

大模型赛道玩家蜂拥而至,这次不仅仅是一线互联网大厂,还有更多行业龙头和创业公司加入。

哪些行业能率先突围?或许从合作案例所处行业可以窥见一斑,如文章开头的表格所示,金融、医疗、教育、自动驾驶等领域应用频繁。

例如,阿里云在四月份发布通义大模型时宣布已和多家企业已经展开了合作探索,首批合作的企业有OPPO安第斯智能云、吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌悦科技等。据介绍,金融行业、零售行业,以及一些面向大型C端的场景和行业已经积累了比较多的公开数据、场景数据,便于构建企业或者行业专属模型。

据公开资料显示,百度文心行业大模型的数量已经达到11个,覆盖能源电力、金融、航天、传媒、影视、汽车、城市管理、燃气、保险、电子制造和社科多个领域。

6月27日发布的北京市首批十个人工智能行业大模型应用案例涉及能源电力、医疗健康、金融、自动驾驶、建筑、科研、生活、问答等领域。

据悉,6月27日至7月30日期间,北京市科委、中关村管委会还将聚焦城市治理、医疗健康、科学研究、智慧金融、智慧生活、智慧城市等重点领域,面向全市创新主体,将征集80余项行业大模型应用案例项目。

但更多的客户正面临一波新的知识积累和学习的过程。

“我们和客户交流时发现,很多客户对行业大模型还不太了解,但会主动提出需要百度的行业大模型。”百度智能云AI平台副总经理李景秋说,这个时候会具体结合企业实际用的产品跟客户解析需求,例如希望行业大模型具备什么样的能力、用在什么系统或应用里面、这些应用到底被谁用、希望达到什么效果……

这些问题问完之后,才会真正发现客户需要的是基于文心千帆的工具链SFT的大模型,还是要构建行业的预训练模型。后者起码需要几个月、甚至上年的时间去构建部署——从数据的处理、算力层的资源配置等技术问题,到跟行业通用数据的长期训练。

从基础大模型喧嚣渐远,到行业大模型华灯初上,迈入2023年下半年,一场真正的商业变革将加速启动。

对比百度等国内厂商和OpenAI/微软在大模型领域的路径,也是一件颇有意思的事情——在ChatGPT呈现全球现象级热度时,有声音质疑,中国为什么做不出来ChatGPT,其中固然有技术环境、商业氛围等一系列的复杂成因,最终很多人还是有一个粗浅的共识——“中国AI更倾向于业务应用和商业化的能力”,直白点说,中国AI耐心更少,更想赚钱。

但反过来讲,市场是技术发展的最大推动力,对于时间和节奏的把握,造就了不同的结果。就以行业大模型为例,微软或是在等待技术的进一步成熟,或是觉得还没到时机,慢了一步,国内厂商迅速从基础大模型过渡到行业大模型,大模型落地于场景,才能有持久的生命力。

失之东隅,收之桑榆,以结果论,国内行业大模型跑得快,不是一件坏事。

END -

本文仅代表作者个人观点,不代表本公众号立场。本公众号转载此图文仅出于传播更多资讯之目的。如有侵权或违规请及时联系我们,我们将立刻予以删除。



20237·

《城市投行

“合肥模式”的进阶与复制》

点【在看】,让你在意的人看到这篇文章

相关内容 查看全部