实测智谱视频版:懂论文会做菜能教英语,助手长眼睛了?
出品|搜狐科技
作者|梁昌均
再次抢发OpenAI!
8月30日,国内大模型公司智谱AI在智谱清言APP上线视频通话功能,国产视频版“Her”来了。
今年5月,OpenAI推出即文本、图像、音频、视频于一身的GPT-4o,并演示了语音和视频通话功能。
但原本计划在6月底上线的高级语音功能,OpenAI硬是拖了一个月才对Plus用户推出,而视频通话功能和Sora一样又成了期货。
国产大模型拒绝画饼,未经预告直接上!
在近日的AI顶会KDD国际数据挖掘与知识发现大会上,智谱AI正式发布新一代基座大模型GLM-4-Plus等系列模型,并在今日上线国内首个面向C端开放的视频通话功能。
随着视频通话功能的加入,智谱清言APP成为首个可以通过文本、图像、音频和视频来进行多模态互动的AI助手。
搜狐科技拿到了内测资格,一起来看看智谱AI视频版的“Her”表现如何。
视频识别能力较好偶有幻觉,兼具夸夸体质
从官方放出的演示视频来看,通过视频功能,它可以在游戏、办公、生活、教育等领域充当AI助手。
比如,它可以对图像进行识别,能描述出图像内容,并猜出这是画蛇添足的成语;还可以实工作助手,能读英文论文并进行发散性的阐释分析。
它也可以是你的生活助手,比如识别宠物,实测智谱视频版:懂论文会做菜能教英语,助手长眼睛了?并告诉你这个宠物的习性、出现了问题怎么办。在孩子不会做数学题的时候,他可以用来辅助引导一步步给出答案,并可以帮助进行英文教学等,中英文都可以。
搜狐科技实测了解到,在清言APP启动视频通话后,不用唤醒词,它会主动跟你打招呼:下午好,有什么想要跟我说的吗?
它还有记忆功能,每次打开后还会聊起上次的内容。如果长时间未跟它进行交流,它会说“似乎有点安静呢,有需要再叫我哦”,自动退出通话。
这款长了“眼睛”的AI助手,它看和理解的能力到底怎么样?
对于最近火爆的《黑神话:悟空》,它能识别出画面内容,并谈自己的感受,但最开始搞错了游戏名字,后来再追问一遍才说对,并对游戏进行了简单介绍,还进行了一顿夸赞。
在图像识别方面,给它一个交通标志,它能识别出来是禁止停车的意思。对于地标建筑物,它也能识别出来。
比如它能识别出番茄,让它给出三个菜的建议,它也爽快给出番茄炒蛋、番茄汤、番茄沙拉三个菜名,结尾还不忘来句“你肯定能做出超棒的菜肴”,情绪价值非常到位。
接下来,上点难度。给它来一篇AI领域的重要论文《AttentionIsAllYouNeed》,它光看题目就知道这是关于自然语言处理和机器学习领域的论文,并反问到“你对这篇论文有兴趣吗”,具有一定的主动交互能力。
让它介绍下这款论文的主要内容,它也能侃侃而谈,称其介绍了一款注意力机制的新模型Transformer,并能说出这款模型的优点。
但问到这篇论文有多少位作者时,它却回答11位,实际是8位,可能是数据或识别出现问题。对于作者,如排名第一的AshishVaswani,它也能简单介绍,可以说有一定的知识储备。
当然,它也可以是学习或教育的助手。当遇到不认识的英文单词时,可以让它来教你读,并说出意思。
以李白《静夜思》的诗句英文翻译为例,它知道这是英文版。不过,它有时理解似乎有些问题,比如让它读英文时,它却直接读了中文诗句,最后又来了句“多美的诗呀”。
从前述评测来看,清言APP的视频能力在识别方面比较准确,有一定的理解能力和知识能力,但在一些细节问题上会出错,可能还是存在幻觉。
在语音方面,目前它只有女声,说话的时候带有语言词,虽然仍能听出一丝机器味和有些延迟,但比之前的AI语音听起来要自然很多,并能主动交互,同时兼具夸夸体质,情绪价值拉满。
目前,清言的视频功能首批面向部分用户开放,同时开放外部申请。智谱AI称,将持续迭代并逐步放开规模,尽快让全员都可以使用。
基座大模型再升级,多个能力与GPT-4o相当
作为对标OpenAI的国产玩家,智谱AI如今在AI生成视频和C端AI助手视频功能等方面在进度上赶超,同时在基座大模型上也在持续发力。
智谱AI在KDD大会上推出了新一代基座大模型GLM-4-Plus,其是智谱全自研GLM大模型的最新版本。
大语言基座模型GLM-4-Plus在语言理解、指令遵循、长文本处理等方面性能全面提升,使用了大量模型辅助构造高质量合成数据以提升模型性能,并利用PPO算法提升了模型推理(数学、代码等)表现,更好反应人类偏好。
PPO全称为ProximalPolicyOptimization,是OpenAI在2017年提出的一种在线策略优化算法,通过限制策略更新的幅度来提高训练的稳定性和样本效率,可以解决深度强化学习存在的样本效率低、训练不稳定等挑战。
根据智谱AI发布的测评,GLM-4-Plus在语言文本能力、长文本的推理能力等方面,和GPT-4o、405B参数量的Llama3.1相当。
GLM-4-Plus已在智谱大模型开放平台部署,开发者从现在开始就能通过API方式调用。
多模态大模型也迎来升级,最新的GLM-4V-Plus在图像和视频理解能力方面达到全球前列,评测超过GPT-4o和Anthropic当前最强模型Claude3.5Sonnet。它还可以理解网页内容,并将其转换为html代码。
GLM-4V-Plus还能够理解并分析复杂的视频内容,并具备时间感知能力,能力远超GPT-4o和谷歌模型。在该模型上下开放平台后,智谱AI将提供国内首个通用视频理解模型API。
文生图模型则升级到CogView-3-Plus,其效果接近目前最佳的闭源MidjourneyV6及StabilityAI原创团队推出的开源FLUX等模型,并支持图片编辑功能。
此外,智谱AI还宣布视频生成模型CogVideoX-5B开源,这是是继CogVideoX2B开源后的最新版本,性能更强,推理显存需求最低仅需11.4GB,且开源协议更加开放,意味着任何企业和个人都可使用。目前,智谱AI开源模型累计下载量突破2000万次。
智谱AI还宣布GLM-4-Flash完全免费,用户可以通过调用其快速、免费地构建专属模型和应用,这是智谱开放平台首个完全免费的大模型API。
目前,随着多款模型推出和商业化应用,智谱AI已经成为国内重要的大模型平台。据IDC报告,去年中国大模型平台市场规模达17.65亿元,百度、商汤、智谱AI位居前三。
评论