祛魅AI:半年大模型,还在天上飞

贝壳号 | 发布于2023-08-04

编辑按:本文转载至微信公众号“光子星球”,飞鲸投研经授发布 。

大模型的火,已经在这片土地上烧了半年。随着华为京东携程三家发布会赶上晚集,按互联网一贯的范式,国产大模型这个“新东西”也迎来了自己的半年考。

只是跟其他业务的半年考有所不同,像新能源车、手机、电商平台等业务形态的半年考,都有足够的公开数据信息为支撑,便于考据分析,而大模型到现在都还处一个“黑盒子”的状态,没能跑出一个清晰的商业模式,所谓数据信息等论据也就无从谈起。

颇为戏谑的是,即使是从产品功能角度出发,大模型也未曾诞生通用的评测手段。面向AGI这一终极目标,评测方法自然五花八门,例如国内C端用户赖以“测评”大模型的典中典——“松鼠鳜鱼法”。

或因如此,国内大厂大多未能像OpenAI一般将自家大模型开放使用,而是实行内测机制。

祛魅AI:半年大模型,还在天上飞

而大模型更多的落地探索向B端与G端倾斜,例如腾讯先声夺人的行业大模型以及华为的盘古3.0、京东灵犀等。作为目前头部玩家聚焦的赛道,其大模型偏重尽可能展现成熟的产品形态,以商业化落地为基本目标。例如这一类大模型为了快速向下普及推动商业化,除却业务落地导向外, 本地化部署能力也成为重要的参考指标。

即使如此,在业内人士看来已经是“把碗送到面前”的行业大模型仍缺少买账的企业,行业模型的风自6月起已经吹了一个月,至今未曾出现较大规模的商业合作。

因此我们也不难看到,在如今的投资市场中,与大模型相关的投资集中于二级市场而非一级市场。即使是王慧文这个级别的大牛入场,公开消息称其A轮融资远高于2.3亿美元,其融资能力相较时不时接收微软百亿美元投喂的OpenAI不可同日而语。

投资市场是合格的晴雨表。显然,国内大模型在半年考的时间节点所提交的答卷不尽如人意,还需要一段时间的蛰伏与打磨,才能让“故事”成真。

大模型没有商业模式?

在国内的大模型需要回应市场的质疑中,商业模式应该摆在首位。

ChatGPT这位早已占据用户心智的头把交椅出现热度的明显下降,国内最早发布通用大模型百度与阿里两家也在一众玩家跟进后陷入“沉寂”。究其原因,在于通用大模型的商业模式未能跑通。即使在舆论场上获得了用户的认可,但商业闭环始终未能出现。

以测试范围较广泛的百度大模型为例,其商业化应用文心千帆的付费模式是以调用生成的 token 数量收费,标准为0.012元/千 tokens,输出千字文稿需花费0.12元。

撇开其回收成本的速度不谈,0.012元/千 tokens的收费看看似便宜,但文本生成往往需要多次交互后才能获取理想结果,多次交互prompt将会无限量增加隐性成本,毕竟文心千帆可不是挥之即来的员工们。

与之相似的场景是问答社区,学界人士孙权(化名)告诉光子星球,模型应用的使用体验与问答社区中搜寻高质量答案相似,其用户思维是问题粒度,而付费意愿往往只会在找到高质量回答之后才会产生。因此百度选择了推理文本数为付费标准,只是目前还无法cover商用隐性成本。

如果采用B端喜闻乐见的月度付费,那也只是将成本支出方从用户转为自己,显然不是长久之计。ChatGPT面对C端用户20美元/月的定价之下,尚且存在偷工减料之嫌便是最佳佐证。

当下,通用大模型的商业化无论是走B端还是C端都难以做到盈亏平衡,同时还很可能遭遇诸如AI伦理、监管等合规性风险。因此,大模型的行业化、垂直化成为落地需求下的范式转变。

反观行业大模型,虽说其产品形态始于落地需求,但是在实际落地中出现的问题却也有待解决。

一类值得参考的案例是依托自身产品生态而打造的垂类to C模型,例如知乎早早宣布于产品内进行内测的知海图AI以及前不久才发布的携程问道。

两者切入大模型赛道的优势并无二致,在于自有的社区生态和以此为基础衍生的高质量社区内容。而内容作为行业数据,在简单清洗后便可成为大模型的训练语料。两者的细微差别则是知乎自始便是内容社区,而携程则是近年才开始发力做内容。

可是就目前来看,无论是知乎还是携程,其大模型的产品形态似乎都未能切中用户痛点,亦未能对既有功能有足够的提升。

知海图AI目前已公布的产品“热榜摘要”是通过AI抓取优质问答并润色改写出梗概呈现给用户,而另一项应用“搜索聚合”则是自回答中聚合观点,提高用户获取信息、形成决策的效率。

本身推荐、热榜一类聚合功能便是知乎“传统艺能”,大模型赋能后的表现在用户层面并未掀起水花。况且,AI改写润色的流程也将热门答案的个性化特征覆盖,于用户而言,这项应用的功能仅在于快速了解信息,这与内容社区所倡导的差异化、个性化交流背道而驰。

而立足OTA的携程问道,在携程董事局主席梁建章看来是一个旅游业的“可靠答案库”。其产品成效如何还需时间检验,但自定位来看,同样有“舍本逐末”之嫌。

旅游在年轻用户眼中本就不存在标准答案,“特种兵式”、“打卡式”、“沉浸式”等多样化旅游形式的出现证明了这一点。如假设大量用户通过AI制定旅游路线规划,千篇一律的路线规划反而会影响社区交流与氛围,甚至遭致用户停留时间的下降。

大体看来,垂直模型在C端的落地尝试算不上顺利,甚至有成为“沉没成本”的可能。或许受到大模型本身“提高效率”神话的影响,产品定位也大多囿于“效率”二字,只是效率仅仅是用户体验中一个不算核心的维度。

相同的范式在to B领域也有所展现,而在追求效率的B端,行业大模型的商业模式与落地问题得到了更深刻的展现。

摸不清的黑匣子

“AI不是物理,很少有理论上的重大技术突破,更多的是在模型结构、数据质量等维度做微调和小优化,甚至很多时候模型输出更好了,团队却找不到原因。”

祛魅AI:半年大模型,还在天上飞

在一位业内人士看来,大模型在业内外存在巨大的认知偏差,而原因则在于大模型训练以及AI行业对于外界而言是一个不折不扣的“黑匣子”,很难审视大模型产生输出结果的推理过程,它看不见摸不着。

这导致外界在度过ChatGPT带来的狂热期后,一旦冷静下来,便会对大模型这个“黑匣子”持审慎态度。这将导致大模型在落地上的困境,而这一现象在如今向to B路线转变的过程中更为明显。

以如今已明确to B路线的大厂出品为例,包括腾讯云推出的MaaS技术方案、华为云推出的盘古大模型等,依靠自身云计算生态,均称其大模型服务支持多样化部署,包括云端部署、本地化快速部署等。在交互、操作、后续加入新的行业数据迭代优化等方面也有建树,可以说是为了落地,把大模型的门槛降到了极低。

但“审慎”带来的认知墙还是没有打破,即使ChatGPT的风吹了半年,许多企业没有动力也没有兴趣去研究如何导入大模型。

数年前的云计算行业可以看到因循的相似逻辑。云计算是在认识到数据价值后,以此为基础的服务和衍生,至于大模型于企业的价值,相对而言更是数据价值的跃升。同样是企业客户缺乏的技术能力,连云计算在国内企业的普及之路都距终点尚远,大模型自不必说。

行业大模型究竟好用与否,其实已经并不重要了,毕竟商品的使用价值最终还需使用者来挖掘。更有甚者,外界会粗暴通过某些测试、表现来衡量模型水平,例如“松鼠鳜鱼法”或近来因预测特大台风“杜苏芮”的登陆地点与强度有错误现象而遭受质疑的华为盘古气象大模型。

或许正因如此,于近期发布的京东灵犀大模型选择优先跑通自家业务场景,预计于明年初方对“外部严肃商业场景”开放。

更值一提的是,“行业成风”之下,商业化导向下的所谓行业模型在取代大模型原本的“通用”叙事的同时,也遭致不少人的“迷失”。

所谓行业大模型的定义存在模糊不清。大模型(Foundation Model)的内涵不在于参数量多少而在于使用通用数据训练而涌现出的通用能力。如采用同样的模型架构,但在数据上使用单一领域数据,不仅丧失了通用能力,甚至会由于涌现的折扣导致领域问题也无法解决。

如在原大模型基础上使用行业数据做二次预训练,相当于微调了原模型,那么即产品本身仍处于模型层,可以被称作行业大模型;如通过prompt或外挂数据库的方式加入领域知识,那便仅是对原模型能力的激发,产品也应归属至模型之上的应用层,称之为行业大模型言过其实。

目前大厂中发力行业大模型的绝大多数均是前者,如腾讯、京东、华为等。后者则由于更轻的投入与快速提高模型能力的表现,更多会出现在开源社区中,例如前段时间引发热议的法律大模型ChatLaw。

“相比前者,后者在产品形态上更为成熟,便于快速构建模型能力,但后者在完成灌输领域知识的流程后,往往上限会更高”,一位业内人士称。

开源威胁

近日,Meta在开放商用许可下免费提供其最新开源大模型Llama2,并将其引入微软的Azure平台,此举被誉为开源LLM的重要里程碑,甚至开始威胁闭源的头部厂商OpenAI的地位。

通过微软这个大模型金主,Meta以更开放的姿态挑战OpenAI。

祛魅AI:半年大模型,还在天上飞

实际上,“开源派”早在此前便以第三方的身份悄然崛起。“我们没有护城河,OpenAI 也没有。”这句话出自5月谷歌意外泄露的一份内部文件。其内容大意是表面上, OpenAI 和谷歌在大模型上你追我赶,但真正的赢家未必会从这两家中产生,下此判断的原因便在于愈加丰富的开源生态。

开源生态愈发活跃,乃至于出现了模型能力的代表Llama2以及Finetune(模型微调)范式的代表技术LORA,这一切都让闭源争取“大力出奇迹”的巨头厂商感受到明显寒意。

开源的技术分享以及人才流转等因素,也在让大模型的黑匣子愈发“玻璃化”,缺少壁垒的必然结果是大厂在巨量资金、时间的投入下的Konw How轻易为开源社区所倾覆。

国内头部大厂对此的应对大多是“两手抓”。左手“关门造车”,以小规模内测形式不断打磨产品形态与能力,右手“集思广益”,以云端开发者生态为基础打造生态内的开源社区,但这刚需厂商自算力层、模型层到应用层的全栈布局。阿里云推出了大模型开源社区魔搭GPT,华为云、百度云、腾讯云也都有所布局。

总体来看,无论是行业还是通用,to C还是to B,大模型的半年考给予我们的直接感觉是:落地困难,盈利预期不断后移;风险渐强,难言技术壁垒。那么,当下的破局之路在哪?

目前而言,有两个有意思的方向。其一是被誉为“ AI 时代的Memory”的向量数据库,其二是模型智能赋予下的智能硬件。

所谓向量,即是可以代表任何东西的多维数据,包括如今LLM训练最为重视的文本,以及图像、视频、音声等。这些形式的内容会在数据库中清晰表示,并且支持语义检索,即通过相似性检索,例如男人与男孩。换句话说,于大模型而言,向量检索就是大模型的SEO。

如上文所述,领域知识可以通过向量数据库能力,或是精调或是外挂来提高行业模型的建构和使用,于大厂而言自然是下一阶段的发力点所在。自5月起,资本便不断涌入向量数据相关赛道,作为前景更为确定的应用层产品,向量数据也收获了一众VC的密切关注。

至于智能硬件内置模型,则是相对曾经的“siri”、“小爱”等智能助手的能力跃升,也是对真正的智能设备(手机、电脑)的外延拓展。开源社区内早有将大参数模型内置MAC的尝试,而大厂则是在过去的移动互联网时代便积累了一定硬件生产能力,相对而言其先发优势更为明显。

少了PR式的春秋笔法,落地成为核心需求的大模型不再神秘,故事也越来越少,开始“深潜”的赛道玩家们仍在发力。行业需要下一个“ChatGPT”时刻,我们方能见到潜水者浮出水面,正面对抗。

飞鲸投研从多维度分析,整理了一份《成长50》的名单,可以关注同名公众号:"飞鲸投研":feijingtouyan,进行领取(点击复制)

该文观点仅代表作者本人,飞鲸投研系信息发布平台

/阅读下一篇/

增幅重回C位,“没有夜生活”的上海靠什么强势回归?

热门推荐