豆包文科成绩超了一本线:为什么理科不行
什么?好多大模型的豆包文科成绩超一本线,还是文科最卷的河南省???
△图源:极客公园
没错,最近就有这么一项大模型“高考大摸底”评测走红了。成绩超本
河南高考文科今年的线为行一本线是521分,根据这项评测,什理共计四个大模型大于或等于这个分数,豆包其中头两名最值得关注:
GPT-4o:562分
字节豆包:542.5分
……
从结果中来看,文科GPT-4o的成绩超本表现依旧是处于领先状态,而在国产大模型这边,线为行比较亮眼的什理成绩便属于豆包了。
并且在语文和历史等科目的豆包成绩甚至还超越了GPT-4o。
这也让不少网友纷纷感慨:
AI文科成绩这么好,文科看来在处理语言和逻辑上还是成绩超本很有优势的。
不过有一说一,线为行毕竟国产大模型的什理竞争是如此之激烈,这份评测的排名真的靠谱吗?发布仅数月的豆包,真具备此等实力吗?以及这数学……又是怎么一回事儿?
先看评测榜单
要回答上述的问题,我们不妨先来查一查豆包在最新的权威评测榜单中的表现是否一致。
首先有请由智源研究院发布的FlagEval(天秤)。
它的评测方式是这样的:
对于开源模型, FlagEval会综合概率选择和自由生成两种方式来评测,对于闭源模型, FlagEval只采用自由生成的方式来评测,两种评测方式区别参照。
主观评测时部分闭源模型对极小部分题目有拒绝回答的情形,这部分题目并没有计入能力分数的计算。
在“客观评测”这个维度上,榜单成绩如下:
不难看出,这一维度下的FlagEval中,前四名的成绩是与“高考大摸底”的名次一致。
大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。
并且豆包在“知识运用”和“数学能力”两个维度上成绩还高于第一名的GPT-4。
若是将评测方式调节至“主观评测”,那么结果是这样的:
此时,百度的大模型跃居到了第一名,而字节的豆包依旧是稳居第二的成绩。
由此可见,不论是主观还是客观维度上,前几位的名次都是与“高考大摸底”的成绩是比较接近的。
接下来,我们再来有请另一个权威测评——OpenCompass(司南)。
在最新的5月榜单中,豆包的成绩也是仅次于OpenA家的大模型。
同样的,在细分的“语言”和“推理”两个维度中,豆包还是超越了GPT-4o和GPT-4 Turbo。
但与专业评测冷冰冰的分数相比,人们都对高考有着更深刻的体验和记忆。
那么接下来我们就通过豆包回答高考题,来看看大模型在应对人类考试时的具体表现。
再看实际效果
既然目前许多试卷的题目都已经流出,我们不妨亲测一下豆包的实力。
例如让它先写一篇新课标I卷语文的作文题目:
随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
△结果由豆包PC端对话生成
从豆包的作答上来看,是已经摆脱了AI写作文经常犯的“首先-其次-以及-最后”这种模板式的写法,也擅长引经据典来做论证。
但毕竟每个人对于文笔的审美标准不同,因此豆包高考作文写得如何,评价就交给你们了(欢迎在留言区讨论)。
值得一提的是,在量子位向豆包团队询问后得知,原来豆包PC端对话和手机端“拍题答疑”是两种截然不同的招式——
前者走的是LLM链路,后者走的则是RAG链路(若是用豆包手机端“拍题答疑”功能,高考数理化成绩也能接近满分)。
加上在这次“高考大摸底”评测出炉之后,很多网友们都将关注的重点聚焦到了数学成绩上:
AI也怕数学。
因此,接下来的实际效果测试,我们就将以“LLM链路+数学”的方式来展开。
先拿这次的选择题来小试牛刀一下:
当我们把题目在PC端“喂”豆包之后,它的作答如下:
因此,豆包给出的答案是:
A、C、D、D、B、B、A、A
这里我们再来引入排名第一选手GPT-4o的作答:
A、D、B、D、C、A、C、B
而根据网上目前多个信源得到的标准答案是:A、C、D、A、B、B、C、B。
对比来看,豆包对5道,GPT-4o答对4道。
而对于更多的数学题的作答,其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试(所有大模型只能依靠LLM推理答题,不能通过RAG检索答案):
△图源:复旦大学自然语言处理实验室
由此可见,大模型并不能完全hold住高考数学题目,并且不同人生成答案的结果也会出现偏差。
并且量子位在反复测试后发现,豆包对话答题时有一定随机性,多轮测试时的结果并不完全一样。上文只取样其中一轮的结果。
这也正如广大网友所反馈的那般——大模型文科强、理科弱。
对此,技术圈也已经有一些讨论和解释:
大语言模型的基本原理是“文字接龙”,通过预测下一个token来生成内容,每次预测都有随机性和概率分布。
当大语言模型学习了海量知识数据,天然就适应考验记忆能力和语言运用的文科考试。
但理科考试主要考验推理和计算,比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%。
另一方面,理科语料比较稀缺。大模型的训练数据中,文科语料要远远大于理科语料。这也是大模型更擅长文科的一个原因。
大模型都在努力提升智能水平,主要目标就是提高推理和计算能力。目前学界对此存在争议,有观点认为,“预测下一个token”本身就包含了推理,计算也是一种推理。
只要Scaling Law生效,大模型性能持续提升,推理和计算能力就能够提升;但也有反对者(如Yann LeCun)认为,大语言模型缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果,主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI,目前还没有定论。
那是不是大模型就不适合用户来解数学题了呢?
也并不全是。
正如刚才所说,如果用豆包手机端的“拍题答疑”,也就是RAG链路的方式,那么结果的“打开方式”就截然不同了。
我们可以先用豆包APP对着题目拍照,让它先进行识别:
结果就是——全对!
至于更多类型题目大模型们的表现会如何,友友们可以拿着感兴趣的题目自行测试一番了。
如何评价?
从“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等评测上可以看到,豆包大模型已经稳稳进入国产第一梯队。
但随即而来的一个问题便是,过去一年多异常低调的豆包,是如何在短短一个月内就开始爆发的?
其实早在发布之际,豆包与其它大模型厂商截然不同的路径就已经有所体现,归结其背后的逻辑就是:
只有最大的使用量,才能打磨出最好的大模型。
据了解,豆包大模型在5月15日正式发布时,其每天平均处理的token数量高达1200亿,相当于1800亿的汉字;每天生成图片的数量为3000万张。
不仅如此,豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。
因此,我们可以把豆包在大模型性能上的路数,视为用“左手使用量,右手多场景”的方式反复打磨而来。
一言蔽之,大模型好不好,用一下就知道了。
并且基于豆包大模型打造的同名产品豆包APP,已成为国内最受欢迎的AIGC类应用。
这一点上,从量子位智库所汇总的智能助手“APP下载总量”和“APP月新增下载总量”便可一目了然——
豆包,均拿下第一。
(责任编辑:焦点)
-
广州不许上路!男子骑无牌照共享电单车被罚 网友吵翻到底谁的错:官方回应
7月1日消息,据国内媒体报道称,近日,广州有男子因骑无牌照共享电单车被交警拦下罚款的视频引发关注。消息一出,引来了不少网友的热议,有的网友表示,既然没牌不能上路,为什么可以经营?还有网友表示,这罚款没 ...[详细] -
上海徐家汇最高气温突破39.6℃ 官方提醒:尽量避免户外活动
近日,上海连续高温。据上海市气象局官方微博@上海市天气 消息,徐家汇最高气温突破39.6℃,这也是近期最高气温。“天宝亲验阳光下的铁疙瘩,感觉、应该可以煎蛋。 ...[详细] -
万元游戏本秒罄!红魔游戏本16 Pro首销火爆:10499元起
快科技7月4日消息,今天,红魔宣布红魔游戏本16 Pro京东先人一步开卖火爆秒罄。售价方面,红魔游戏本16 Pro有两个版本,i9-14900H/RTX 4060/16GB/1TB售价10499元,i ...[详细] -
快科技7月8日消息,根据洛图科技RUNTO)最新发布的数据,2024年上半年,中国大陆电视市场品牌整机出货量达到1639万台,较2023年同期减少了4.2%。具体来看,第一季度和第二季度的出货量分别为 ...[详细]
-
快科技7月18日消息,历时3年自主研发,中车长春轨道客车公司正式发布了时速400公里动车组运行所需的内置转向架产品,标志着我国在深度掌控高铁核心技术和关键部件的研制上有了新的突破。转向架是轨道车辆的走 ...[详细]
-
快科技7月4日消息,还记得去年卖出170辆保时捷的保时捷女销冠吗?近日,她又获奖了。日前,其在社交媒体发布自己拿到2024年年中销冠的照片,并配文“感谢上半年努力的自己,下半年加油”,据了解,该销售在 ...[详细]
-
《阿凡达》《泰坦尼克号》制片人乔恩·兰道因癌症去世 享年63岁
据The Wrap报道,《阿凡达》和《泰坦尼克号》制片人乔恩·兰道因癌症去世,享年63岁,兰道在接受治疗期间不幸离世。他与导演詹姆斯·卡梅隆多年合作,共同创作了多部票房最高 ...[详细] -
快科技7月5日消息,Intel最近发布新一代数据中心液冷解决方案“G-Flow浸没式液冷”,不但可以为计算密集环境提供出色的散热能力、系统稳定性、易操作性,还能降低总体拥有成本TCO)、电能利用效率P ...[详细]
-
快科技7月2日消息,今晚赛力斯发布公告称,赛力斯集团股份有限公司控股子公司赛力斯汽车有限公司拟收购华为技术有限公司及其关联方持有的已注册或申请中的919项问界等系列文字和图形商标,以及44项相关外观设 ...[详细]
-
快科技7月4日消息,浙江交警发文称,近期,在浙江湖州南浔区发生了一起交通事故,一方鲁莽地闯红灯,另一方急切地抢黄灯,结果在路口悲剧发生,两车高速碰撞。事发时,徐某在驾驶电动自行车沿街由西向东行驶时,无 ...[详细]