如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-21 08:40:18
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-22 17:45:16广东省肇庆市怀集县洪水后,赵一鸣零食店被哄抢,物资和收银机里面的几千块钱被哄抢一空,如何评价?
- 2025-06-22 17:10:16如何看待苹果在 WWDC25 发布的 Foundation 模型框架,它将为开发者和用户带来哪些改变?
- 2025-06-22 16:45:16JetBrains 放弃 AppCode 是否是一个错误决定?
- 2025-06-22 17:45:16现在河南流行娶外国女(比如越南、老挝)结婚了吗?
- 2025-06-22 17:00:1612306 网站的根目录下为什么连 robots.txt 文件(反爬虫协议)都没有?
- 2025-06-22 16:40:18《权力的游戏》里面最美的是谁?
- 2025-06-22 16:35:16坚持使用 PHP 的你,如今有什么感悟?
- 2025-06-22 17:10:16华为和硅基流动发布CloudMatrix384超节点部署DeepSeek的报告,对行业有何影响?
- 2025-06-22 17:10:16Firefox是如何一步一步衰落的?
- 2025-06-22 16:15:16MacBook的诱惑在哪里?
推荐产品
-
歼20速度接近3马赫是什么水平?
到不了3,满状态听说最高速度2.8,超巡2.0,对F35可以 -
为什么腰肌劳损这么难治?
果然,有这一套。 腰肌劳损,本来就是小病。 但是这一 -
湘雅二院两年间给罗帅宇转账 40 多万,或涉及 20 多名医生,这背后存在何疑点?
就这个事我还特意打电话问了我一个朋友,他以前在就是在湘雅医院 -
什么是歼20完全体?
歼-20B的含金量还在提高… 从24年4月开始,国内互联
最新资讯