酣战大模型：跨越日均亿，能说明什么，该说明什么？

yezi666 科技创新 2024-08-24 371 0 酣战大模型跨越日均亿能说明什么该说明什么？

任一环节做不好=“烂尾工程”。

作者｜赵健

编辑｜甲小姐

2024年被看作大模型大规模落地元年。市场关注点流变：从“拼参数”到了“拼落地”。

被调用Tokens数

可作为标准之一。「甲子光年」根据公开信息整理：

字节跳动的豆包大模型已成为国内被调用Tokens数最大的大模型之一。在甲小姐对话谭待一文中，火山引擎总裁谭待告诉「甲子光年」：

“只有更大使用量才能打磨出更好的模型，也只有更好的模型才有更大的使用量”。

大模型酣战至今，已几乎卷入全球所有大资本。谭待的说法一方面是强有力的“飞轮”佐证

，另一方面，却并非所有选手都有入场券。

“画虎不成”，就成了“循环论证”。

此刻，全球同步并举的战事有着以小时为单位流变的英雄座次表。冷僻思考后，“日均Tokens使用量达千亿”不失为一条基准线

。

《中庸》有句很妙的话：“致广大而尽精微”，也是此文所指：

AI驱动着新世界的浮现，其面孔正在由模糊变清晰。

5000亿Tokens基准线：更强=更快落地

为了拉近企业与大模型的距离，火山引擎正在成都、厦门、上海、天津、深圳五大城市开展“AI创新巡展”活动。在上周结束的厦门站上，来自果集、美图之家、众联世纪、宁德时代等企业的嘉宾，分享了如何借助豆包大模型等AI产品与解决方案，将AI结合到业务之中。

火山引擎副总裁张鑫，图片来自火山引擎

在这一系列巡展活动上，豆包大模型公布的数据有两处值得关注。

第一，日均使用量超5000亿Tokens。

Token是指语言模型中用来表示中文汉字、英文单词或中英文短语的符号，大模型以Token的消耗量来定价。

直观理解：1个token等于1-2个汉字。

假如书写一个汉字是一厘米，5000亿Tokens大约7500亿个汉字，连起来长度约750万公里，大约可绕赤道187圈；一本《红楼梦》大约73万字，若5000亿Tokens全部用来抄写《红楼梦》，大约能抄100多万遍。

此外，Tokens使用量的增速

也非常快。豆包大模型在今年5月发布时，日均Tokens使用量是1200亿。短短两个月之后，这一数据更新为5000多亿，增长了3倍多，斜率生猛。

第二，字节跳动基于豆包大模型底座能力推出的AI智能助手“豆包”，截至今年4月，在移动端和PC端拥有超2600万月活跃用户

，是国内用户量最大的智能助手产品之一。

这两个数字背后的意义，「甲子光年」认为至少有两点：“高”和“广”

。越来越高的模型性能，以及越来越广的落地场景。

模型Tokens使用量的增长，证明了大模型的性能正在稳步提升。去年，业内通常简单粗暴得用模型参数的大小来对比不同模型之间的性能。模型参数就像是大模型的“记忆细胞”，帮助模型学习和存储信息。一般来说，模型的参数量越大，代表模型的性能上限越高。但参数不是唯一决定大模型性能的因素。除了模型参数之外，模型的结构、深度、训练方法、优化算法、数据质量等，也影响着大模型的能力。

技术的标准多种多样，因此不如换一种直观数据，那就是使用规模

谭待告诉「甲子光年」：“从第一性原理出发，如果模型能力不强，使用量不可能起来。”大模型的性能与使用人数构成了一个正向“飞轮”。只有更大使用量才能打磨出更好的模型，也只有更好的模型才有更大的使用量。为了打磨模型性能，豆包大模型花了很多的时间——修炼内功，而非抢占市场

2023年，豆包大模型是第一批通过《生成式人工智能服务管理暂行办法》备案的大模型之一，但并没有着急向市场发布

过去一年，豆包大模型在字节跳动内部经过了大量的“实战演练”，在包括抖音、今日头条在内的50多个业务场景中进行实践和验证，在2024年5月才在火山引擎原动力大会上正式亮相。在甲小姐对话谭待一文中，谭待回应了豆包大模型迟到的原因：不希望发布半成品。

“C端决策很快，可以接受半成品，数据闭环更明显。互联网的C端逻辑是，先做一个半成品，免费对外提供，用户对产品容忍度也高，他们来使用就会产生更多数据，厂商就能够更好得完善产品。但B端和C端不一样，企业决策更理性，市场领先于产品的逻辑不一定合理。你发得早，别人一测发现不好用，那你提早发反而是浪费双方时间，后面出现更好的产品，客户也会考虑用，和云计算是一个道理。”谭待说。

近水楼台先得月。

率先在字节跳动内部业务场景锤炼的豆包大模型，面向更加垂直与细分的业务场景推出了单独的垂直模型，它们共同构成了豆包大模型家族。豆包大模型是一个包含了10个细分模型的模型家族。其中，最核心的是两个豆包通用模型，两个尺寸：

图片来自火山引擎

在一些第三方评测榜单中，豆包大模型的性能表现也处在国内第一梯队。比如，智源研究院旗下的FlagEval大模型评测平台6月发布的评测榜单显示，在闭源大模型的“客观评测”中，豆包大模型以综合评分75.96分排名国产大模型第一。

更强就意味着更快落地。

去年，大模型的主要能力还集中展示在写诗、作画等偏C端娱乐化的场景，它被更多的看作是“AI玩具”。如今，日均超5000亿Tokens的使用量背后，是豆包大模型在汽车、金融、游戏、互联网、智能终端、消费、医疗健康、传媒、教育科研等众多行业的企业业务场景的落地。

大模型，真正意义上成为业务场景提效

的“AI工具”。

任一环节做不好=“烂尾工程”

更好的性能与更多的落地场景是大模型进化的飞轮，但两者中间还有重要的桥梁亟待连接——那就是降低大模型的落地门槛，让大模型落地更简单。

企业落地大模型，基本上不需要从零开始训练通用大模型，而是在既有通用大模型的基础上注入专有的行业数据做二次训练，得到一个更懂行业的行业大模型。

但是，这个看似简单的像“把大象放进冰箱需要几步”的步骤，却是个相当复杂的系统性工程。

火山引擎副总裁张鑫在厦门站的演讲中分享了火山引擎联合RollingAI、InfoQ研究中心发布的《生成式AI商业落地白皮书：给CXO的AI转型战术指南》。白皮书显示，大模型接入业务场景的流程拆解长达8个步骤：需求分析、模型选型、数据整理、模型评估、模型精调、模型部署、模型应用以及持续优化。

每一环节又分成两到四个细分步骤：

图片来自《生成式AI商业落地白皮书：给CXO的AI转型战术指南》

每个步骤都充满挑战与不确定性，包括且不限于大规模数据处理、模型评估和调优、性能监控及安全保障等——任何一个环节做不好，大模型都很容易变成“烂尾工程”。

针对大模型落地全流程中遇到的一系列技术难题，火山引擎打造了一站式大模型服务平台火山方舟，它为企业提供从模型精调到推理、评测的全方位功能与服务，保障AI落地的每一公里。

算力不足往往是大模型落地遇到的首要问题，

尤其是针对有大量C端使用场景的企业，比如文生图、AI搜索等场景。在这些业务场景里，企业的规模越大，大模型所服务的用户越多，推理所消耗的算力就越高。文生图领域的“王者”Midjourney最开始就是向所有用户免费开放，但随着越来越多的用户涌入，算力的消耗不堪重负，Midjourney不得不开启付费通道。

对于这一类型的企业，充沛的算力供应是大模型落地最基础的诉求。比如，美图公司借助豆包大模型与自研的奇想大模型，实现了AI内容生成、Prompt优化以及火山引擎语音合成、语音识别、文本翻译等通用AI技术，能够为海量用户提供更好的生成能力。火山方舟通过强大的系统承载能力，能够利用丰富的公有云GPU资源池，实现分钟级的千卡扩缩容，确保在面对超大流量时业务的稳定性。

大模型的行业知识不足，是大模型落地频繁遇到的第二个问题。

大模型表面看上去上知天文、下知地理，但仍然存在很多的局限。一方面，大模型的训练语料来自互联网公开信息，但信息是有时效性的，比如GPT-4的知识库更新到了2023年10月，那么此后发生的信息，离线模型就无法得知。

另一方面，大模型虽然通晓古今，博学多识，但它很难知晓某一家公司的采购或者报销流程，甚至会出现“胡说八道”的幻觉问题。原因也很简单，大模型的训练语料里缺乏专业的行业知识，而行业知识是企业的竞争壁垒，大模型从公开渠道无从得知。

企业要想落地大模型，就需要解决大模型专业性知识不足的问题，比如，在通用大模型的基础上加入行业知识做微调，通过检索增强生成（RAG）构建行业知识库等。

火山方舟就是给企业提供了一个“百宝箱”，来解决不同场景下的专业问题。比如，在智慧办公场景落地大模型应用，最新升级的火山方舟2.0提供的知识库插件，可以引入专业的参考资料，构建办公领域垂直知识库；联网插件可以访问并采集网络即时热点信息，使得参考资料范围得到进一步扩充。

企业落地大模型第三个常见的需求，是AI应用开发，特别是AI智能体（Agent）。

前面提到，通用大模型不了解也不会实现如何在一家企业内部做报销，但类似的能力智能体

可以做到。

智能体，指能够自主感知环境、作出决策并执行行动的系统——通常依赖大型语言模型作为其核心决策和处理单元，具备自主性、反应性、适应性和交互性等基本特征。可以说，智能体就是大模型落地的最后一公里，甚至被看作大模型的“下一场战事”。

如何开发智能体？火山引擎提供了两个开发“神器”——扣子专业版与HiAgent

，前者可以在公有云上实现，后者可以实现混合部署。

在过去，开发一个应用需要编写大量代码，门槛很高。而扣子专业版与HiAgent可以通过低代码的方式，用自然语言对话一句话轻松捏个Bot，同时还可以调用插件、工作流、图像流、知识库、数据库等一系列工具，一键引入，任意组合，灵活构建。

比如，卡泰驰是海尔集团在产业互联网赛道为汽车行业而打造的平台，在搭建在线商城智能交互引擎时围绕用户找车、看车、买车、用车、换车全链路梳理了16 AI场景。通过火山引擎的HiAgent平台及豆包大模型能力，卡泰驰实现了高代码到低代码的研发转变，于2周内成功实现卡泰驰AI寻车器应用上线，根据用户购车需求精准查询全国40 门店2000 实时车辆数据，改善客户服务体验。

企业在选择大模型时，除了模型的基本性能，价格也是一个重要的考虑因素。

在各家大模型最强版本价格对比中，豆包大模型比行业价格低98%以上。

随着大模型价格的持续下降，企业能够以更低的成本部署和使用先进的AI技术，这对企业提升业务效率，改进客户体验和推动创新具有重要意义。价格降低不仅推动了技术的普及，还激发了更多创新应用场景的探索，为各个行业带来全新的发展契机。

当然，一切业务的前提是安全。火山方舟通过传输加密、数据加密和安全沙箱等措施，在训练与部署过程中，全面保障数据的安全性，为企业AI应用提供全周期的安全保障。

至上的“纲”：落地有用

“大模型到底能干什么？先从哪些领域开始用？”这是大模型的灵魂拷问。

如今，随着越来越多的大模型落地实践，这些灵魂拷问也逐渐有了答案。我们经常听到一句话：企业的每一个业务场景，都需要用大模型重做一遍。过去两年，大模型的落地到底进展到哪一步了？

从C端数据来看，生成式AI应用已迅速席卷生活和工作的各个方面。根据BusinessofApps数据显示，从2021年下半年到2024年上半年，AI应用用户数量呈现出惊人的增长趋势。2021年下半年，AI应用用户数量仅为1800万，而到2024年上半年，这一数字已经飙升至2.33亿，增长了超过12倍。

在B端业务场景，据《生成式AI商业落地白皮书：给CXO的AI转型战术指南》显示，53%大企业已经开始了生成式AI创新的落地尝试。

其中，15%的企业处于研究阶段，19%的企业则进行了生成式AI的培训或分享，9%的企业不仅成立了专门的团队负责生成式AI的落地，还配备了相应的支出预算，还有11%走在创新前列的企业已经在生成式AI的应用上取得了一定成果。

在众多生成式AI的应用场景中，CIO/CDO（首席信息官/首席数字官）投票选出的前十个最有价值的场景包括企业内部知识查找和答疑、代码推荐和辅助生成、智慧教学、对话式智能数据分析、销售策略个性化生成、文章和说明文件辅助写作、内容创意生成、智能助理、智能客服、客户画像智能分析。

十个最有价值的AI场景，图片来自《生成式AI商业落地白皮书：给CXO的AI转型战术指南》

大模型已经迅速覆盖各行业和职能领域。销售与营销是当前最热门，比如在汽车行业，有80%的企业在营销场景、84%的企业在销售场景使用了大模型等生成式AI技术。营销领域的大量需求体现在营销文本、素材、图像，甚至视频的生产，这些都是最契合生成式AI原生能力的场景。

梅赛德斯-奔驰近日宣布与火山引擎签署战略合作备忘录，将在大模型、生成式人工智能和大数据等前沿技术领域开展合作和探索。在智能座舱里，借助大模型的意图理解和逻辑推理能力，汽车通过更聪明的虚拟助理来提升智舱信息检索能力。此外，双方还会在语音、导航、娱乐等智能应用场景，以及研发插件和工具链方面展开合作。

在手机、电脑等智能终端行业，搜索模块的AI应用率达到90%。

比如，OPPO选择与火山引擎合作，通过整合火山方舟的技术资源、字节跳动豆包大模型以及字节跳动在大模型领域的丰富实践经验，使AI智能体在意图识别、语义理解以及输出呈现方面更加精准且全面，显著提升了AI手机的交互能力，同时还有力推动了OPPO“1 N”智能体生态战略的迅速实施和市场落地。

此外，在消费品行业，有56%的企业在产品研发中使用生成式AI，医药大健康行业和制造业在IT、销售和营销领域也都有广泛应用，教科研机构也在全面展开AI辅助知识管理、智能助教及教学评估的探索。总之，仍有很多场景机会正等待技术落地。

以大模型为代表的生成式AI在优化企业运营成本、提升企业运营效率方面潜力巨大，许多企业高层对其带来的实际经济效益充满信心。

数据显示，有37%的CIO/CDO表示其企业的生成式AI项目将带来超过10%的成本缩减，26%的高管预计生成式AI将带来超过10%的效率提升。

除了降本增效之外，一些隐形的优势也在逐步建立。比如，利用大模型的泛化能力为用户提供更高专业和更个性化的服务，采集和分析更多维度的非结构化数据，建立行业的知识库并赋能上下游生态，酣战大模型：跨越日均亿，能说明什么，该说明什么？开辟脑力密集型业务的新商业模式等。有的能力并不能直接体现为降低运营成本，但通过更精准的市场洞察和决策，可以避免资源浪费和错失商机，从而节省大量资金，带来新的增长力。