酣战大模型:跨越日均亿,能说明什么,该说明什么?

任一环节做不好=“烂尾工程”。

作者|赵健

编辑|甲小姐

2024年被看作大模型大规模落地元年。市场关注点流变:从“拼参数”到了“拼落地”。

被调用Tokens数

可作为标准之一。「甲子光年」根据公开信息整理:

字节跳动的豆包大模型已成为国内被调用Tokens数最大的大模型之一。在甲小姐对话谭待一文中,火山引擎总裁谭待告诉「甲子光年」:

“只有更大使用量才能打磨出更好的模型,也只有更好的模型才有更大的使用量”。

大模型酣战至今,已几乎卷入全球所有大资本。谭待的说法一方面是强有力的“飞轮”佐证

,另一方面,却并非所有选手都有入场券。

“画虎不成”,就成了“循环论证”。

此刻,全球同步并举的战事有着以小时为单位流变的英雄座次表。冷僻思考后,“日均Tokens使用量达千亿”不失为一条基准线

《中庸》有句很妙的话:“致广大而尽精微”,也是此文所指:

AI驱动着新世界的浮现,其面孔正在由模糊变清晰。

5000亿Tokens基准线:更强=更快落地

为了拉近企业与大模型的距离,火山引擎正在成都、厦门、上海、天津、深圳五大城市开展“AI创新巡展”活动。在上周结束的厦门站上,来自果集、美图之家、众联世纪、宁德时代等企业的嘉宾,分享了如何借助豆包大模型等AI产品与解决方案,将AI结合到业务之中。

火山引擎副总裁张鑫,图片来自火山引擎

在这一系列巡展活动上,豆包大模型公布的数据有两处值得关注。

第一,日均使用量超5000亿Tokens。

Token是指语言模型中用来表示中文汉字、英文单词或中英文短语的符号,大模型以Token的消耗量来定价。

直观理解:1个token等于1-2个汉字。

假如书写一个汉字是一厘米,5000亿Tokens大约7500亿个汉字,连起来长度约750万公里,大约可绕赤道187圈;一本《红楼梦》大约73万字,若5000亿Tokens全部用来抄写《红楼梦》,大约能抄100多万遍。

此外,Tokens使用量的增速

也非常快。豆包大模型在今年5月发布时,日均Tokens使用量是1200亿。短短两个月之后,这一数据更新为5000多亿,增长了3倍多,斜率生猛。

第二,字节跳动基于豆包大模型底座能力推出的AI智能助手“豆包”,截至今年4月,在移动端和PC端拥有超2600万月活跃用户

,是国内用户量最大的智能助手产品之一。

这两个数字背后的意义,「甲子光年」认为至少有两点:“高”和“广”

。越来越高的模型性能,以及越来越广的落地场景。

模型Tokens使用量的增长,证明了大模型的性能正在稳步提升。去年,业内通常简单粗暴得用模型参数的大小来对比不同模型之间的性能。模型参数就像是大模型的“记忆细胞”,帮助模型学习和存储信息。一般来说,模型的参数量越大,代表模型的性能上限越高。但参数不是唯一决定大模型性能的因素。除了模型参数之外,模型的结构、深度、训练方法、优化算法、数据质量等,也影响着大模型的能力。

技术的标准多种多样,因此不如换一种直观数据,那就是使用规模

谭待告诉「甲子光年」:“从第一性原理出发,如果模型能力不强,使用量不可能起来。”大模型的性能与使用人数构成了一个正向“飞轮”。只有更大使用量才能打磨出更好的模型,也只有更好的模型才有更大的使用量。为了打磨模型性能,豆包大模型花了很多的时间——修炼内功,而非抢占市场

2023年,豆包大模型是第一批通过《生成式人工智能服务管理暂行办法》备案的大模型之一,但并没有着急向市场发布

过去一年,豆包大模型在字节跳动内部经过了大量的“实战演练”,在包括抖音、今日头条在内的50多个业务场景中进行实践和验证,在2024年5月才在火山引擎原动力大会上正式亮相。在甲小姐对话谭待一文中,谭待回应了豆包大模型迟到的原因:不希望发布半成品。

“C端决策很快,可以接受半成品,数据闭环更明显。互联网的C端逻辑是,先做一个半成品,免费对外提供,用户对产品容忍度也高,他们来使用就会产生更多数据,厂商就能够更好得完善产品。但B端和C端不一样,企业决策更理性,市场领先于产品的逻辑不一定合理。你发得早,别人一测发现不好用,那你提早发反而是浪费双方时间,后面出现更好的产品,客户也会考虑用,和云计算是一个道理。”谭待说。

近水楼台先得月。

率先在字节跳动内部业务场景锤炼的豆包大模型,面向更加垂直与细分的业务场景推出了单独的垂直模型,它们共同构成了豆包大模型家族。豆包大模型是一个包含了10个细分模型的模型家族。其中,最核心的是两个豆包通用模型,两个尺寸:

图片来自火山引擎

在一些第三方评测榜单中,豆包大模型的性能表现也处在国内第一梯队。比如,智源研究院旗下的FlagEval大模型评测平台6月发布的评测榜单显示,在闭源大模型的“客观评测”中,豆包大模型以综合评分75.96分排名国产大模型第一。

更强就意味着更快落地。

去年,大模型的主要能力还集中展示在写诗、作画等偏C端娱乐化的场景,它被更多的看作是“AI玩具”。如今,日均超5000亿Tokens的使用量背后,是豆包大模型在汽车、金融、游戏、互联网、智能终端、消费、医疗健康、传媒、教育科研等众多行业的企业业务场景的落地。

大模型,真正意义上成为业务场景提效

的“AI工具”。

任一环节做不好=“烂尾工程”

更好的性能与更多的落地场景是大模型进化的飞轮,但两者中间还有重要的桥梁亟待连接——那就是降低大模型的落地门槛,让大模型落地更简单。

企业落地大模型,基本上不需要从零开始训练通用大模型,而是在既有通用大模型的基础上注入专有的行业数据做二次训练,得到一个更懂行业的行业大模型。

但是,这个看似简单的像“把大象放进冰箱需要几步”的步骤,却是个相当复杂的系统性工程。

火山引擎副总裁张鑫在厦门站的演讲中分享了火山引擎联合RollingAI、InfoQ研究中心发布的《生成式AI商业落地白皮书:给CXO的AI转型战术指南》。白皮书显示,大模型接入业务场景的流程拆解长达8个步骤:需求分析、模型选型、数据整理、模型评估、模型精调、模型部署、模型应用以及持续优化。

每一环节又分成两到四个细分步骤:

图片来自《生成式AI商业落地白皮书:给CXO的AI转型战术指南》

每个步骤都充满挑战与不确定性,包括且不限于大规模数据处理、模型评估和调优、性能监控及安全保障等——任何一个环节做不好,大模型都很容易变成“烂尾工程”。

针对大模型落地全流程中遇到的一系列技术难题,火山引擎打造了一站式大模型服务平台火山方舟,它为企业提供从模型精调到推理、评测的全方位功能与服务,保障AI落地的每一公里。

算力不足往往是大模型落地遇到的首要问题,

尤其是针对有大量C端使用场景的企业,比如文生图、AI搜索等场景。在这些业务场景里,企业的规模越大,大模型所服务的用户越多,推理所消耗的算力就越高。文生图领域的“王者”Midjourney最开始就是向所有用户免费开放,但随着越来越多的用户涌入,算力的消耗不堪重负,Midjourney不得不开启付费通道。

对于这一类型的企业,充沛的算力供应是大模型落地最基础的诉求。比如,美图公司借助豆包大模型与自研的奇想大模型,实现了AI内容生成、Prompt优化以及火山引擎语音合成、语音识别、文本翻译等通用AI技术,能够为海量用户提供更好的生成能力。火山方舟通过强大的系统承载能力,能够利用丰富的公有云GPU资源池,实现分钟级的千卡扩缩容,确保在面对超大流量时业务的稳定性。

大模型的行业知识不足,是大模型落地频繁遇到的第二个问题。

大模型表面看上去上知天文、下知地理,但仍然存在很多的局限。一方面,大模型的训练语料来自互联网公开信息,但信息是有时效性的,比如GPT-4的知识库更新到了2023年10月,那么此后发生的信息,离线模型就无法得知。

另一方面,大模型虽然通晓古今,博学多识,但它很难知晓某一家公司的采购或者报销流程,甚至会出现“胡说八道”的幻觉问题。原因也很简单,大模型的训练语料里缺乏专业的行业知识,而行业知识是企业的竞争壁垒,大模型从公开渠道无从得知。

企业要想落地大模型,就需要解决大模型专业性知识不足的问题,比如,在通用大模型的基础上加入行业知识做微调,通过检索增强生成(RAG)构建行业知识库等。

火山方舟就是给企业提供了一个“百宝箱”,来解决不同场景下的专业问题。比如,在智慧办公场景落地大模型应用,最新升级的火山方舟2.0提供的知识库插件,可以引入专业的参考资料,构建办公领域垂直知识库;联网插件可以访问并采集网络即时热点信息,使得参考资料范围得到进一步扩充。

企业落地大模型第三个常见的需求,是AI应用开发,特别是AI智能体(Agent)。

前面提到,通用大模型不了解也不会实现如何在一家企业内部做报销,但类似的能力智能体

可以做到。

智能体,指能够自主感知环境、作出决策并执行行动的系统——通常依赖大型语言模型作为其核心决策和处理单元,具备自主性、反应性、适应性和交互性等基本特征。可以说,智能体就是大模型落地的最后一公里,甚至被看作大模型的“下一场战事”。

如何开发智能体?火山引擎提供了两个开发“神器”——扣子专业版与HiAgent

,前者可以在公有云上实现,后者可以实现混合部署。

在过去,开发一个应用需要编写大量代码,门槛很高。而扣子专业版与HiAgent可以通过低代码的方式,用自然语言对话一句话轻松捏个Bot,同时还可以调用插件、工作流、图像流、知识库、数据库等一系列工具,一键引入,任意组合,灵活构建。

比如,卡泰驰是海尔集团在产业互联网赛道为汽车行业而打造的平台,在搭建在线商城智能交互引擎时围绕用户找车、看车、买车、用车、换车全链路梳理了16 AI场景。通过火山引擎的HiAgent平台及豆包大模型能力,卡泰驰实现了高代码到低代码的研发转变,于2周内成功实现卡泰驰AI寻车器应用上线,根据用户购车需求精准查询全国40 门店2000 实时车辆数据,改善客户服务体验。

企业在选择大模型时,除了模型的基本性能,价格也是一个重要的考虑因素。

在各家大模型最强版本价格对比中,豆包大模型比行业价格低98%以上。

随着大模型价格的持续下降,企业能够以更低的成本部署和使用先进的AI技术,这对企业提升业务效率,改进客户体验和推动创新具有重要意义。价格降低不仅推动了技术的普及,还激发了更多创新应用场景的探索,为各个行业带来全新的发展契机。

当然,一切业务的前提是安全。火山方舟通过传输加密、数据加密和安全沙箱等措施,在训练与部署过程中,全面保障数据的安全性,为企业AI应用提供全周期的安全保障。

至上的“纲”:落地有用

“大模型到底能干什么?先从哪些领域开始用?”这是大模型的灵魂拷问。

如今,随着越来越多的大模型落地实践,这些灵魂拷问也逐渐有了答案。我们经常听到一句话:企业的每一个业务场景,都需要用大模型重做一遍。过去两年,大模型的落地到底进展到哪一步了?

从C端数据来看,生成式AI应用已迅速席卷生活和工作的各个方面。根据BusinessofApps数据显示,从2021年下半年到2024年上半年,AI应用用户数量呈现出惊人的增长趋势。2021年下半年,AI应用用户数量仅为1800万,而到2024年上半年,这一数字已经飙升至2.33亿,增长了超过12倍。

在B端业务场景,据《生成式AI商业落地白皮书:给CXO的AI转型战术指南》显示,53%大企业已经开始了生成式AI创新的落地尝试。

其中,15%的企业处于研究阶段,19%的企业则进行了生成式AI的培训或分享,9%的企业不仅成立了专门的团队负责生成式AI的落地,还配备了相应的支出预算,还有11%走在创新前列的企业已经在生成式AI的应用上取得了一定成果。

在众多生成式AI的应用场景中,CIO/CDO(首席信息官/首席数字官)投票选出的前十个最有价值的场景包括企业内部知识查找和答疑、代码推荐和辅助生成、智慧教学、对话式智能数据分析、销售策略个性化生成、文章和说明文件辅助写作、内容创意生成、智能助理、智能客服、客户画像智能分析。

十个最有价值的AI场景,图片来自《生成式AI商业落地白皮书:给CXO的AI转型战术指南》

大模型已经迅速覆盖各行业和职能领域。销售与营销是当前最热门,比如在汽车行业,有80%的企业在营销场景、84%的企业在销售场景使用了大模型等生成式AI技术。营销领域的大量需求体现在营销文本、素材、图像,甚至视频的生产,这些都是最契合生成式AI原生能力的场景。

梅赛德斯-奔驰近日宣布与火山引擎签署战略合作备忘录,将在大模型、生成式人工智能和大数据等前沿技术领域开展合作和探索。在智能座舱里,借助大模型的意图理解和逻辑推理能力,汽车通过更聪明的虚拟助理来提升智舱信息检索能力。此外,双方还会在语音、导航、娱乐等智能应用场景,以及研发插件和工具链方面展开合作。

在手机、电脑等智能终端行业,搜索模块的AI应用率达到90%。

比如,OPPO选择与火山引擎合作,通过整合火山方舟的技术资源、字节跳动豆包大模型以及字节跳动在大模型领域的丰富实践经验,使AI智能体在意图识别、语义理解以及输出呈现方面更加精准且全面,显著提升了AI手机的交互能力,同时还有力推动了OPPO“1 N”智能体生态战略的迅速实施和市场落地。

此外,在消费品行业,有56%的企业在产品研发中使用生成式AI,医药大健康行业和制造业在IT、销售和营销领域也都有广泛应用,教科研机构也在全面展开AI辅助知识管理、智能助教及教学评估的探索。总之,仍有很多场景机会正等待技术落地。

以大模型为代表的生成式AI在优化企业运营成本、提升企业运营效率方面潜力巨大,许多企业高层对其带来的实际经济效益充满信心。

数据显示,有37%的CIO/CDO表示其企业的生成式AI项目将带来超过10%的成本缩减,26%的高管预计生成式AI将带来超过10%的效率提升。

除了降本增效之外,一些隐形的优势也在逐步建立。比如,利用大模型的泛化能力为用户提供更高专业和更个性化的服务,采集和分析更多维度的非结构化数据,建立行业的知识库并赋能上下游生态,酣战大模型:跨越日均亿,能说明什么,该说明什么?开辟脑力密集型业务的新商业模式等。有的能力并不能直接体现为降低运营成本,但通过更精准的市场洞察和决策,可以避免资源浪费和错失商机,从而节省大量资金,带来新的增长力。

火山引擎的“AI创新巡展”上海站即将开启,届时我们将会看到更多大模型落地的实践。

正如本文开头所判断:AI驱动着新世界的浮现,其面孔正在由模糊变清晰。

(封面图由AI生成)

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:无敌椰子

分享:

扫一扫在手机阅读、分享本文

评论

最近发表