实测的:真没吹牛,奥数题高考题都能信手拈来了?
头图由豆包生成,提示词:太阳系、八大行星,宇宙星空 区域重绘
好家伙,OpenAI终于上新了!
9月13日凌晨,OpenAI发布了最新系列模型OpenAIo1
,也就是吹了很久的“Strawberry模型🍓”,OpenAI的o1是一系列新的AI模型,专门为解决复杂问题而生。在多种平台上超越了所有之前的版本,甚至超过了许多人类,比如美国数学奥林匹克(AIME)、GPQA评估和Codeforces,目前已上线o1-Preview、o1-mini
。
首个版本是预览版,不仅推理、科学、编程和数学能力强了一大截;更重要的它不是直接回答,而是主动先思考后再回答。
就相当于在生成回应之前,投入更多时间进行思考,再做答。
目前,ChatGPTPlus和Team用户已经可以在ChatGPT网页版中访问o1模型,Enterprise和Edu用户下周也能用上。没有会员的朋友们可以期待一下,OpenAI官方会继续研发计划向所有ChatGPT免费用户提供o1-mini访问权限。
收到消息后,第一时间就打开ChatGPT,能直接使用o1-Preview、o1-mini,还不错。
要知道一直以来,大模型都是文科生,在数学问题上都显得很智障。除非有非常非常清晰的提示,否则很难答对。
很多模型都栽在了最简单的比大小问题上,看官方介绍o1更新着重在推理(科学、数学、编码)上下了不少功夫
,那咱们拭目以待。
1
先做道AIME2024年竞赛题
根据官方报告,在许多需要推理的测试中,o1的表现已经达到了人类专家的水平,推理准确性超过博士生。
由于目前处于模型训练的早期阶段,常见功能基本都还没上,也没有多模态能力,无法上传图片,暂时就选择文字题目进行提问。
下面是一道AIME2024年竞赛
的题目,一项专门为美国顶尖高中数学学生设立的挑战性考试,看看o1怎么答。
这么高难度的题,o1思考了15秒,就解出来了。
对照答案,完全正确,分别是0.4h和204min。
要知道之前除了Deepmind的专业大模型有可能答对以外,其他的基本全军覆没。
o1思考到生成
这道题有两种解法,感兴趣的朋友可参考详细解题步骤及视频:
既然o1能做顶尖数学竞赛,也能做高考理科真题。以前每每做高考真题,答案往往只有孤零零的数字一个,想研究吧,没参考。
那我们不如让o1解高考真题,给广大学子提供下新的解题思路。
o1-preview用了26秒得出答案,而且整个过程非常详细,推理也很到位。
详细解答:
再来看一道化学题
:
o1-preview9秒就答出来了,而且有详细的分析思路,不太友好的时候发现是英文。在提问的时候,发现它的输出不太稳定,有时英文,有时中文,如果真用的话还是要谨慎参考。
o1-preview
反观GPT-4o,回答则错误,对于这道化学题,一本正经地胡说八道。
GPT-4o
退休年龄计算
最近关于渐进式延迟法定退休年龄的办法引起大家广泛讨论,退休规则比较复杂。
咱用o1试试,算一下具体的退休时间。假设阿琴是1978年6月出生的,她将会在哪年哪月退休?
o1在一分钟内计算出了,阿琴将在2030年6月,也就是51周岁10个月时正式退休。
对比退休年龄对照表,确实准确无误!
其他更有趣的例子放在了视频里:
三个其实o1-preview的可玩性还是很高的
很多人不喜欢理科是因为枯燥的概念,干巴巴的数字,做实验有难度,根本学也学不明白。现在的通过引导AI一步步把实验可视化,想要实现需要逻辑推理、数学计算和大量编码。在o1出来之前,很多大模型同时不具备这些能力。今天我们来尝试一下。
实验一:蛋白质构建模拟器
记得以前上学,生物学里生命的核心是蛋白质,它能进行多种组合,但想要每个蛋白质不太现实,这时候AI可就能发挥大作用,我们做一个蛋白质构建模拟器。(提示词放在文末,可自取)
o1整个思考只用了6秒,理解了生物和编程结合的需求之后,开始梳理步骤,整个思路非常的清晰明了。
第一次提问后,我让它帮我输出完整完整可运行的代码,方便省事。
o1思考9秒后,直接生成了完整的代码,我挺惊讶的,很难想象这是2次对话,几分钟就实现的效果。
要知道,这个效果涉及到编程的前端和后端,对于编程小白可真的太友好了!
在模拟器中,我们可以把不同的氨基酸添加组合形成新的氨基酸,效果初见雏形。可见,它一次性生成的代码还是有点东西的,瞬间减轻不少蛋白质名字记忆的难度,对于识别蛋白质和创造新的蛋白质真的很有用。
实验二:
太阳系运转
先快速复习一下我们的太阳系:由8颗行星组成:水星、金星、地球、火星、木星、天王星、土星和海王星。太阳位于我们太阳系的中心,实测的:真没吹牛,奥数题高考题都能信手拈来了?行星围绕它旋转。如果想要实现一个动画,通过改变行星的半径或太阳的质量,来可视化行星速度的变化。(提示词放在文末,可自取)
它思考花了26秒,意识到需要使用与物理、数学和编码相关的概念来生成输出。
在几轮对话明确想法后,o1结合了提示词每一步背后的逻辑,将物理和数学合并,把几个视觉元素翻译成合适的代码。初步看来,运行代码后效果还不错,八大行星和和恒星都有,行星轨迹若隐若现。
拨动不同的滑块,能看到不同的效果,对于做实验来说,妥妥够用了。
乍一看以为是静态的,过了几分钟后发现是动态的,下面是几分钟运行加速后的效果,可以看到八大行星都在正常运转,每个的速度也不同,并且大小也不同。
略显不足
的是,离太阳比较近的几颗行星,运行范围太小了,以至于都太阳挡住看不清。
本想再优化一下上面两个实验,看来只能能到一周后了。30分钟得到这样的效果,已经非常满意了。
最后
可能你也发现了,之前我们要一步步把一个问题拆分成很多步骤,精确到一步步引导,GPT才能理解并精准回答。
现在不用,o1出生自己就会。在编程、数学等领域,开始展现出接近人类的思维过程。
要我看,o1学会思考后,越来越像人了,说不定,明年这个时候,我就被它完全打败了,毕竟谁还不想有个会说能写、思路清晰的AI脑子呢?
在这些测试中,o1展现出了强大的推理能力,但仍然存在输出不稳定的问题。
尽管不稳定、功能尚未全面上线,但o1系列模型已经为我们提供了强大的工具来解决复杂问题。未来,随着进一步的模型训练和功能完善,我们可以期待AI在更多领域实现突破。
提示词参考
实验一蛋白质构建模拟器
CreateaninteractiveProteinBuilderSimulationwiththefollowingfeatures:
UserInteraction:
Provideadropdownmenucontainingthe20standardaminoacids,displayingtheirfullnames,three-lettercodes,andone-lettersymbols.
IncludebuttonstoAddAminoAcidtothechain,RemoveLastAminoAcid,andResetChain.
VisualRepresentation:
Startwiththemostbasicaminoacid,Glycine,displayedbydefault.
Representeachaminoacidasauniquelycoloredhelixanddisplaytheirone-lettersymbolsbelow.
Visuallyconnectaminoacidswithlinesorbondstorepresentpeptidebondsasthechaingrowshorizontally.
InformationDisplay:
Asaminoacidsareadded,displaytheirnamesandbasicinformation(properties,uses)belowthesimulation.
Iftheaminoacidsequencematchesaknownproteinorpeptide,displaydetailedinformationincludingitsname,description,andpopularuses.
Forsequencesnotmatchingknownproteins,displaytheaminoacidsequenceandgeneralinformationaboutpeptides,indicatingitmayrepresentanovelorsyntheticpeptide.
实验二太阳系运转
Iwanttocreateascientificallyaccuratesimulationofoursolarsystemwithall8planetsrevolvingaroundtheSunattheiruniquespeeds.Thesimulationshouldincludethefollowingfeatures:
AdjustableParameters:
VisualEnhancements:
UserInterface:
评论