苹果大模型新成果在场景中考察大模型工具调用网友也要努力
-
苹果大模型新成果:在场景中考察大模型工具调用,网友:也要努力
克雷西发自凹非寺量子位|公众号QbitAI苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。这套Benchmark创新性地采用了场景化测评方法,可以更好体现模型在真实环境中的水平。而且还引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。这套测试基准名叫ToolSandbox,苹果基础模型团队负责人庞若鸣也参与了研究工作。ToolSandbox弥补了现有测试标准缺乏场景化评估的不足,缩小了测试条件与实际应用之间的差距。而且在交互上,作者让GPT-4o扮演用户和被测模型进行对话,...