您的位置:首页 > 财经 >

UC伯克利LLM准中文排行榜来了,GPT-4稳居第一,国人开源RNN模型

2023-05-20 09:38:22 来源:IT之家阅读量:14974   

现在大语言模型们也要像王者荣耀 / LoL / Dota 这些游戏里的玩家一样打排位赛了!

前段时间,来自 LMSYS Org的研究人员搞了个大新闻 —— 大语言模型版排位赛!

这次,团队不仅带来了 4 位新玩家,而且还有一个中文排行榜。

  • OpenAI GPT-4

  • OpenAI GPT-3.5-turbo

  • Anthropic Claude-v1

  • RWKV-4-Raven-14B

毫无疑问,只要 GPT-4 参战,必定是稳居第一。

不过,出乎意料的是,Claude 不仅超过了把 OpenAI 带上神坛的 GPT-3.5 位列第二,而且只比 GPT-4 差了 50 分。

相比之下,排名第三的 GPT-3.5 只比 130 亿参数的最强开源模型 Vicuna 高了 72 分。

而 140 亿参数的「纯 RNN 模型」RWKV-4-Raven-14B 凭借着卓越的表现,超越一众 Transformer 模型排到了第 6—— 除 Vicuna 模型外,RWKV 在与所有其他开源模型的非平局比赛中赢得了超过 50% 的比赛。

此外,团队还分别制作了「仅英语」和「非英语」这两个单独的排行榜。

可以看到,不少模型的排位都出现了明显的变化。

比如,用更多中文数据训练的 ChatGLM-6B 确实表现更好,而 GPT-3.5 也成功超越 Claude 排到了第二的位置。

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez 和 Ion Stoica。

盛颖是 LMSYS Org 的 3 个创始人之一,斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单 GPU 上可以跑 175B 模型推理的系统 FlexGen 的一作,目前已获 8k 星。

「开源」VS「闭源」

在社区的帮助下,团队共收集了 13k 条匿名投票,并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中,Anthropic 的 Claude 模型比 GPT-3.5-turbo 更受用户欢迎。

而且,Claude 在与最强大的 GPT-4 竞争时,也表现得非常有竞争力。

从下面这个胜率图来看,GPT-4 和 Claude 之间的 66 场非平局比赛中,Claude 赢得了 32 场比赛。

所有非平局 A vs B 对战中,模型 A 胜利的比例

然而,其他开源模型与这三个专有模型之间,依然存在着很大的差距。

特别是,GPT-4 以 1274 的 Elo 分数领跑排行榜。这比榜单上最好的开源替代 ——Vicuna-13B—— 要高出近 200 分。

在去掉平局后,GPT-4 在与 Vicuna-13B 对战时赢得了 82% 的比赛,甚至在与前一代 GPT-3.5-turbo 对战时赢得了 79% 的比赛。

然而,值得注意的是,排行榜上的这些开源模型通常具有比专有模型更少的参数,范围在 30 亿 - 140 亿之间。

实际上,最近在 LLM 和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新 PaLM 2 就是一个很好的例子:我们知道 PaLM 2 在使用较小模型大小时,比其前一代实现了更好的性能。

因此,团队对开源语言模型迎头赶上充满乐观。

GPT-4 在何时会「翻车」?

在下图中,用户提出了一个需要仔细推理和规划的棘手问题。虽然 Claude 和 GPT-4 提供了类似的答案,但 Claude 的回应稍微好一些。

然而,由于采样的随机性,团队发现这种情况并不能总能复刻。有时 GPT-4 也能像 Claude 一样给出相同的顺序,但在这次生成试验中失败了。

另外,团队注意到,当使用 OpenAI API 和 ChatGPT 接口时,GPT-4 的行为略有不同,这可能是由于不同的提示、采样参数或其他未知因素导致的。

用户更喜欢 Claude 而不是 GPT-4 的一个例子

在下图中,尽管 Claude 和 GPT-4 都具有惊人的能力,但它们仍在处理这类复杂的推理问题上挣扎。

一个用户认为 Claude 和 GPT-4 都错了的例子

除了这些棘手的情况,还有许多并不需要复杂推理或知识的简单问题。

在这种情况下,像 Vicuna 这样的开源模型可以与 GPT-4 表现相当,因此我们可能可以使用稍微弱一些的大型语言模型(LLM)来替代像 GPT-4 这样更强大的模型。

Elo 分数的变化

自从三个强大的专有模型参与以来,聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时,开源模型输掉了不少比赛,因此它们的 Elo 分数都有所下降。

最后,团队还计划开放一些 API,让用户可以注册自己的聊天机器人来参加排位赛。

参考资料:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

栏目导读
北汽极狐阿尔法S获耐腐蚀性能白金等级证书

北汽极狐阿尔法S获耐腐蚀性能白金等级证书

CA-CAP(中国汽车耐腐蚀与老化性能评价规程)在海南博鳌举办,标志着我国汽车行业耐腐蚀与抗老化测评领域向前迈进一大步,

2022-02-14 19:44
从口罩到健康码,冬奥会如期举行背后的四重科技助力

从口罩到健康码,冬奥会如期举行背后的四重科技助力

北京冬奥会开幕在即,新冠病毒已经进化出传染力更强的奥密克戎新变种,加上病毒喜寒畏热的特性,叠加春运大范围的人员流动,其防

2022-01-28 08:13
好空气“随叫随到”,米家空气净化器4让健康生活更有趣

好空气“随叫随到”,米家空气净化器4让健康生活更有趣

又是一年岁末时,按照惯例,春节应是亲友团聚的欢乐时期。然而疫情的突袭,让家人的团聚变得更加珍贵,也让更多的家庭明白健康的

2022-01-26 16:31
沃尔沃方锡智:用户的困惑和需求,“沃”都在心里

沃尔沃方锡智:用户的困惑和需求,“沃”都在心里

在这个飞速发展的信息化时代,高端产品已经越来越不是“一锤子买卖”,售后服务成为了增强用户黏性、促成口碑向销量转化的关键所

2022-01-26 14:51
钦培吉:借IPO,沃尔沃迎来更大施展舞台

钦培吉:借IPO,沃尔沃迎来更大施展舞台

今年以来,沃尔沃动作频繁,受到了业界内外的广泛关注。3月,沃尔沃宣布将在2030年实现全面电动化,成为纯电豪华品牌,且所

2022-01-18 14:34