实测的：真没吹牛，奥数题高考题都能信手拈来了？

vip888 科技资讯 2024-09-16 527 0 实测的真没吹牛奥数题高考题都能信手拈来了？

头图由豆包生成，提示词:太阳系、八大行星，宇宙星空区域重绘

好家伙，OpenAI终于上新了！

9月13日凌晨，OpenAI发布了最新系列模型OpenAIo1

，也就是吹了很久的“Strawberry模型🍓”，OpenAI的o1是一系列新的AI模型，专门为解决复杂问题而生。在多种平台上超越了所有之前的版本，甚至超过了许多人类，比如美国数学奥林匹克（AIME）、GPQA评估和Codeforces，目前已上线o1-Preview、o1-mini

。

首个版本是预览版，不仅推理、科学、编程和数学能力强了一大截；更重要的它不是直接回答，而是主动先思考后再回答。

就相当于在生成回应之前，投入更多时间进行思考，再做答。

目前，ChatGPTPlus和Team用户已经可以在ChatGPT网页版中访问o1模型，Enterprise和Edu用户下周也能用上。没有会员的朋友们可以期待一下，OpenAI官方会继续研发计划向所有ChatGPT免费用户提供o1-mini访问权限。

收到消息后，第一时间就打开ChatGPT，能直接使用o1-Preview、o1-mini，还不错。

要知道一直以来，大模型都是文科生，在数学问题上都显得很智障。除非有非常非常清晰的提示，否则很难答对。

很多模型都栽在了最简单的比大小问题上，看官方介绍o1更新着重在推理（科学、数学、编码）上下了不少功夫

，那咱们拭目以待。

先做道AIME2024年竞赛题

根据官方报告，在许多需要推理的测试中，o1的表现已经达到了人类专家的水平，推理准确性超过博士生。

由于目前处于模型训练的早期阶段，常见功能基本都还没上，也没有多模态能力，无法上传图片，暂时就选择文字题目进行提问。

下面是一道AIME2024年竞赛

的题目，一项专门为美国顶尖高中数学学生设立的挑战性考试，看看o1怎么答。

这么高难度的题，o1思考了15秒，就解出来了。

对照答案，完全正确，分别是0.4h和204min。

要知道之前除了Deepmind的专业大模型有可能答对以外，其他的基本全军覆没。

o1思考到生成

这道题有两种解法，感兴趣的朋友可参考详细解题步骤及视频：

既然o1能做顶尖数学竞赛，也能做高考理科真题。以前每每做高考真题，答案往往只有孤零零的数字一个，想研究吧，没参考。

那我们不如让o1解高考真题，给广大学子提供下新的解题思路。

o1-preview用了26秒得出答案，而且整个过程非常详细，推理也很到位。

详细解答：

再来看一道化学题

：

o1-preview9秒就答出来了，而且有详细的分析思路，不太友好的时候发现是英文。在提问的时候，发现它的输出不太稳定，有时英文，有时中文，如果真用的话还是要谨慎参考。

o1-preview

反观GPT-4o，回答则错误，对于这道化学题，一本正经地胡说八道。

GPT-4o

退休年龄计算

最近关于渐进式延迟法定退休年龄的办法引起大家广泛讨论，退休规则比较复杂。

咱用o1试试，算一下具体的退休时间。假设阿琴是1978年6月出生的，她将会在哪年哪月退休？

o1在一分钟内计算出了，阿琴将在2030年6月，也就是51周岁10个月时正式退休。

对比退休年龄对照表，确实准确无误！

其他更有趣的例子放在了视频里：

三个其实o1-preview的可玩性还是很高的

很多人不喜欢理科是因为枯燥的概念，干巴巴的数字，做实验有难度，根本学也学不明白。现在的通过引导AI一步步把实验可视化，想要实现需要逻辑推理、数学计算和大量编码。在o1出来之前，很多大模型同时不具备这些能力。今天我们来尝试一下。

实验一：蛋白质构建模拟器

记得以前上学，生物学里生命的核心是蛋白质，它能进行多种组合，但想要每个蛋白质不太现实，这时候AI可就能发挥大作用，我们做一个蛋白质构建模拟器。（提示词放在文末，可自取）

o1整个思考只用了6秒，理解了生物和编程结合的需求之后，开始梳理步骤，整个思路非常的清晰明了。

第一次提问后，我让它帮我输出完整完整可运行的代码，方便省事。

o1思考9秒后，直接生成了完整的代码，我挺惊讶的，很难想象这是2次对话，几分钟就实现的效果。

要知道，这个效果涉及到编程的前端和后端，对于编程小白可真的太友好了！

在模拟器中，我们可以把不同的氨基酸添加组合形成新的氨基酸，效果初见雏形。可见，它一次性生成的代码还是有点东西的，瞬间减轻不少蛋白质名字记忆的难度，对于识别蛋白质和创造新的蛋白质真的很有用。

实验二：

太阳系运转

先快速复习一下我们的太阳系：由8颗行星组成：水星、金星、地球、火星、木星、天王星、土星和海王星。太阳位于我们太阳系的中心，实测的：真没吹牛，奥数题高考题都能信手拈来了？行星围绕它旋转。如果想要实现一个动画，通过改变行星的半径或太阳的质量，来可视化行星速度的变化。（提示词放在文末，可自取）

它思考花了26秒，意识到需要使用与物理、数学和编码相关的概念来生成输出。

在几轮对话明确想法后，o1结合了提示词每一步背后的逻辑，将物理和数学合并，把几个视觉元素翻译成合适的代码。初步看来，运行代码后效果还不错，八大行星和和恒星都有，行星轨迹若隐若现。

拨动不同的滑块，能看到不同的效果，对于做实验来说，妥妥够用了。

乍一看以为是静态的，过了几分钟后发现是动态的，下面是几分钟运行加速后的效果，可以看到八大行星都在正常运转，每个的速度也不同，并且大小也不同。

略显不足

的是，离太阳比较近的几颗行星，运行范围太小了，以至于都太阳挡住看不清。

本想再优化一下上面两个实验，看来只能能到一周后了。30分钟得到这样的效果，已经非常满意了。

最后

可能你也发现了，之前我们要一步步把一个问题拆分成很多步骤，精确到一步步引导，GPT才能理解并精准回答。

现在不用，o1出生自己就会。在编程、数学等领域，开始展现出接近人类的思维过程。

要我看，o1学会思考后，越来越像人了，说不定，明年这个时候，我就被它完全打败了，毕竟谁还不想有个会说能写、思路清晰的AI脑子呢？

在这些测试中，o1展现出了强大的推理能力，但仍然存在输出不稳定的问题。

尽管不稳定、功能尚未全面上线，但o1系列模型已经为我们提供了强大的工具来解决复杂问题。未来，随着进一步的模型训练和功能完善，我们可以期待AI在更多领域实现突破。

提示词参考

实验一蛋白质构建模拟器

CreateaninteractiveProteinBuilderSimulationwiththefollowingfeatures:

UserInteraction:

Provideadropdownmenucontainingthe20standardaminoacids,displayingtheirfullnames,three-lettercodes,andone-lettersymbols.

IncludebuttonstoAddAminoAcidtothechain,RemoveLastAminoAcid,andResetChain.

VisualRepresentation:

Startwiththemostbasicaminoacid,Glycine,displayedbydefault.

Representeachaminoacidasauniquelycoloredhelixanddisplaytheirone-lettersymbolsbelow.

Visuallyconnectaminoacidswithlinesorbondstorepresentpeptidebondsasthechaingrowshorizontally.

InformationDisplay:

Asaminoacidsareadded,displaytheirnamesandbasicinformation(properties,uses)belowthesimulation.

Iftheaminoacidsequencematchesaknownproteinorpeptide,displaydetailedinformationincludingitsname,description,andpopularuses.

Forsequencesnotmatchingknownproteins,displaytheaminoacidsequenceandgeneralinformationaboutpeptides,indicatingitmayrepresentanovelorsyntheticpeptide.

实验二太阳系运转

Iwanttocreateascientificallyaccuratesimulationofoursolarsystemwithall8planetsrevolvingaroundtheSunattheiruniquespeeds.Thesimulationshouldincludethefollowingfeatures:

AdjustableParameters:

VisualEnhancements:

UserInterface:

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：无敌椰子

实测的：真没吹牛，奥数题高考题都能信手拈来了？

评论

vip888

好文推荐

热门文章

最近发表

标签列表

实测的：真没吹牛，奥数题高考题都能信手拈来了？

相关文章

评论

vip888

好文推荐

热门文章

最近发表

标签列表