实测智谱视频版：懂论文会做菜能教英语，助手长眼睛了？

vip888 科技资讯 2024-09-18 470 0 实测智谱视频版懂论文会做菜能教英语助手长眼睛了？

出品|搜狐科技

作者|梁昌均

再次抢发OpenAI！

8月30日，国内大模型公司智谱AI在智谱清言APP上线视频通话功能，国产视频版“Her”来了。

今年5月，OpenAI推出即文本、图像、音频、视频于一身的GPT-4o，并演示了语音和视频通话功能。

但原本计划在6月底上线的高级语音功能，OpenAI硬是拖了一个月才对Plus用户推出，而视频通话功能和Sora一样又成了期货。

国产大模型拒绝画饼，未经预告直接上！

在近日的AI顶会KDD国际数据挖掘与知识发现大会上，智谱AI正式发布新一代基座大模型GLM-4-Plus等系列模型，并在今日上线国内首个面向C端开放的视频通话功能。

随着视频通话功能的加入，智谱清言APP成为首个可以通过文本、图像、音频和视频来进行多模态互动的AI助手。

搜狐科技拿到了内测资格，一起来看看智谱AI视频版的“Her”表现如何。

视频识别能力较好偶有幻觉，兼具夸夸体质

从官方放出的演示视频来看，通过视频功能，它可以在游戏、办公、生活、教育等领域充当AI助手。

比如，它可以对图像进行识别，能描述出图像内容，并猜出这是画蛇添足的成语；还可以实工作助手，能读英文论文并进行发散性的阐释分析。

它也可以是你的生活助手，比如识别宠物，实测智谱视频版：懂论文会做菜能教英语，助手长眼睛了？并告诉你这个宠物的习性、出现了问题怎么办。在孩子不会做数学题的时候，他可以用来辅助引导一步步给出答案，并可以帮助进行英文教学等，中英文都可以。

搜狐科技实测了解到，在清言APP启动视频通话后，不用唤醒词，它会主动跟你打招呼：下午好，有什么想要跟我说的吗？

它还有记忆功能，每次打开后还会聊起上次的内容。如果长时间未跟它进行交流，它会说“似乎有点安静呢，有需要再叫我哦”，自动退出通话。

这款长了“眼睛”的AI助手，它看和理解的能力到底怎么样？

对于最近火爆的《黑神话：悟空》，它能识别出画面内容，并谈自己的感受，但最开始搞错了游戏名字，后来再追问一遍才说对，并对游戏进行了简单介绍，还进行了一顿夸赞。

在图像识别方面，给它一个交通标志，它能识别出来是禁止停车的意思。对于地标建筑物，它也能识别出来。

比如它能识别出番茄，让它给出三个菜的建议，它也爽快给出番茄炒蛋、番茄汤、番茄沙拉三个菜名，结尾还不忘来句“你肯定能做出超棒的菜肴”，情绪价值非常到位。

接下来，上点难度。给它来一篇AI领域的重要论文《AttentionIsAllYouNeed》，它光看题目就知道这是关于自然语言处理和机器学习领域的论文，并反问到“你对这篇论文有兴趣吗”，具有一定的主动交互能力。

让它介绍下这款论文的主要内容，它也能侃侃而谈，称其介绍了一款注意力机制的新模型Transformer，并能说出这款模型的优点。

但问到这篇论文有多少位作者时，它却回答11位，实际是8位，可能是数据或识别出现问题。对于作者，如排名第一的AshishVaswani，它也能简单介绍，可以说有一定的知识储备。

当然，它也可以是学习或教育的助手。当遇到不认识的英文单词时，可以让它来教你读，并说出意思。

以李白《静夜思》的诗句英文翻译为例，它知道这是英文版。不过，它有时理解似乎有些问题，比如让它读英文时，它却直接读了中文诗句，最后又来了句“多美的诗呀”。

从前述评测来看，清言APP的视频能力在识别方面比较准确，有一定的理解能力和知识能力，但在一些细节问题上会出错，可能还是存在幻觉。

在语音方面，目前它只有女声，说话的时候带有语言词，虽然仍能听出一丝机器味和有些延迟，但比之前的AI语音听起来要自然很多，并能主动交互，同时兼具夸夸体质，情绪价值拉满。

目前，清言的视频功能首批面向部分用户开放，同时开放外部申请。智谱AI称，将持续迭代并逐步放开规模，尽快让全员都可以使用。

基座大模型再升级，多个能力与GPT-4o相当

作为对标OpenAI的国产玩家，智谱AI如今在AI生成视频和C端AI助手视频功能等方面在进度上赶超，同时在基座大模型上也在持续发力。

智谱AI在KDD大会上推出了新一代基座大模型GLM-4-Plus，其是智谱全自研GLM大模型的最新版本。

大语言基座模型GLM-4-Plus在语言理解、指令遵循、长文本处理等方面性能全面提升，使用了大量模型辅助构造高质量合成数据以提升模型性能，并利用PPO算法提升了模型推理（数学、代码等）表现，更好反应人类偏好。

PPO全称为ProximalPolicyOptimization，是OpenAI在2017年提出的一种在线策略优化算法，通过限制策略更新的幅度来提高训练的稳定性和样本效率，可以解决深度强化学习存在的样本效率低、训练不稳定等挑战。

根据智谱AI发布的测评，GLM-4-Plus在语言文本能力、长文本的推理能力等方面，和GPT-4o、405B参数量的Llama3.1相当。

GLM-4-Plus已在智谱大模型开放平台部署，开发者从现在开始就能通过API方式调用。

多模态大模型也迎来升级，最新的GLM-4V-Plus在图像和视频理解能力方面达到全球前列，评测超过GPT-4o和Anthropic当前最强模型Claude3.5Sonnet。它还可以理解网页内容，并将其转换为html代码。

GLM-4V-Plus还能够理解并分析复杂的视频内容，并具备时间感知能力，能力远超GPT-4o和谷歌模型。在该模型上下开放平台后，智谱AI将提供国内首个通用视频理解模型API。

文生图模型则升级到CogView-3-Plus，其效果接近目前最佳的闭源MidjourneyV6及StabilityAI原创团队推出的开源FLUX等模型，并支持图片编辑功能。

此外，智谱AI还宣布视频生成模型CogVideoX-5B开源，这是是继CogVideoX2B开源后的最新版本，性能更强，推理显存需求最低仅需11.4GB，且开源协议更加开放，意味着任何企业和个人都可使用。目前，智谱AI开源模型累计下载量突破2000万次。

智谱AI还宣布GLM-4-Flash完全免费，用户可以通过调用其快速、免费地构建专属模型和应用，这是智谱开放平台首个完全免费的大模型API。

目前，随着多款模型推出和商业化应用，智谱AI已经成为国内重要的大模型平台。据IDC报告，去年中国大模型平台市场规模达17.65亿元，百度、商汤、智谱AI位居前三。

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：无敌椰子

实测智谱视频版：懂论文会做菜能教英语，助手长眼睛了？

评论

vip888

好文推荐

热门文章

最近发表

标签列表

实测智谱视频版：懂论文会做菜能教英语，助手长眼睛了？

相关文章

评论

vip888

好文推荐

热门文章

最近发表

标签列表