淘客熙熙

主题:Grok3-马斯克千倍算力打造跑分没全面领先DeepSeek -- 脊梁硬

  • 共: 💬 4 🌺 24
  • : 💬 1 🌺 1
力大砖飞,效果差强人意

马老板深谙炒作之道不假,不过没R1倒不全出于精心挑选

精心挑选了比较对象,特意(吗)没有对标最新版的deepSeek R1, 而是它的老版本v3

这张图没对比R1,因为Grok3不是思维链版本,对标的思维链版本的跑分图如下

点看全图

上次提到OAI作弊嫌疑,大模型的跑分手脚是全方位的

OpenAI 员工公开指责 xAI:Grok 3 基准测试结果具有误导性

直观体现能力指标的办法之一

相比手机,大模型“不服跑个分”的用户体验更加没保障性,后台随时降智。中国用户用A社和OAI还可能随时遭遇一波封号打击。

如果单论性能跑分,livebench是得到有些重度用户们推荐的,认为比起大模型竞技场要贴近实际感受

通宝推:脊梁硬,


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河