3 月 16 日下午 2 点,百度北京总部的发布厅内,李彦宏迈着急促的步伐走上台,和大家公布了最近一段时间备受关注的产品mdash;mdash;文心一言。
尽管这位科技巨头创始人登过《时代》周刊封面,见过无数大场面,但发布会中,他的神态里都透露了些许紧张和局促。
我可以这么说,这是百度自创建以来关注度最高的发布会之一,所有人都在等着这款对标 ChatGPT 的产品。
有人满怀期待,但也有很多人,只是单纯想看它出丑。
会上,百度共在 5 个场景下,展示了文心一言的能力。
在文学创作方面,文心一言可以总结出《三体》内容,也可以在哲学角度续写《三体》。
在商业文案创作这块,它可以根据公司的业务类型取名,生成 Slogan ,以及撰写几百字的新闻稿。
同时,它也可以做一些数理逻辑推算,比如鸡兔同笼,还可以判断出题目错了。
除此之外,文心一言可以给用户反馈图像,语音和视频。
比如它可以为 2023 世界智能交通大会创作一张海报,也能用四川话回答你的问题,甚至是生成视频。
不过,想实现这些功能其实并不难,百度做的也许就是把这几项服务融合了一下。
可惜的是,发布会上所有素材都事先录好的,并非现场实操,所以对于文心一言的真实能力,很多人都表示怀疑。
好在我搞到了内测账号,现在就看看,文心一言的能力到底如何,它和搭载 GPT-4 的 New Bing 比,谁又更强?
我们先测试了一些日常问题:如何做一份好吃的松鼠桂鱼?
这是文心一言的回答。
这是 New Bing 的回答。
虽然我们没有时间测出谁的菜谱味道更好,但能看出百度文心一言的回答要优质一些。
它按照标准的菜谱格式,分别给出了备料,步骤以及注意事项。
随后,我们又问了一个经典的带有思维陷阱数学问题:一个青蛙掉到了一个 10米深的井里,它每天晚上向上跳 3 米但会滑下来 2 米,请问他第几天能跳出井里?
文心一言的回答是 8 天,这是正确答案。
而 New Bing 的回答是 5 天。
但 New Bing 一共有三种模式,在切换了精确模式后,New Bing 也给出了正确回答。
接着,我们测试了大家比较关心的敲代码能力,让它们帮忙写了一个渐变色按钮的 CSS 。
这是文心一言给的代码。
在实测后发现可以跑出来,但它把渐变色理解成了鼠标指上去后,颜色发生变化。
而 New Bing 给出的代码显示,它成功理解了渐变色。
文心一言是在试图完成用户的指令,而 New Bing 有点在炫技的味道了。
我要的是 CSS ,它给了一份完整代码,还自己加了点击我的提示。
后来,我们又测试了取名, NewBing 给的是:麻晨曦、麻晴雯、麻璇玑、麻云舒,似乎挺有新意。
但文心一言的建议,说实话,我一眼就觉得好像在中国新生儿最热姓名里看过。
随后,我又提了一些节选自弱智吧的问题,测试下他们的智商。
比如:把加特林从冰箱拿出来算冷兵器吗?
两者都讲解了什么是冷兵器后,给出了正确答案:不是。
我们又接着问了另外一个问题为什么贝多芬不出新歌了?
New Bing 在简单介绍后,回答因为已经去世 200年了。
但文心一言似乎陷入了圈套,分析了一堆可能导致贝多芬不出歌的原因。
当然,测试 AI 智商肯定离不开数学题:请用 1 , 2 , 3 , 4 四个数字计算 24 点,每个数字只能用一次。
对于这个问题,一开始,文心一言似乎把自己的 CPU 干烧了。
后来我们又测试了一下,虽然这次不烧了,但不知道它在回答什么东西。
这是 New Bing 的回答。
接着对于中文互联网黑话的理解能力,我们也测试了一下,但让人失望的是,这方面文心一言表现还不如 New Bing 。
比如鸡你太美的梗,它并没给出一个满意的答复。
而 New Bing 的回答,虽然也有错误,但起码比文心一言更接近答案。
对于差评 925 的梗,文心一言可能因为训练语料的原因,没给到我们想要的答案,而是放出了一个非常古老的谐音梗。
New Bing 则近乎完美解释了我们 925 的梗。
在信息搜索的问题上,我们也进行了提问:理想汽车过去五个月销量,请逐月列出。
文心一言的答案是:
New Bing 的回答是:
这两个答案看下来,文心一言表现地非常拉胯,不仅没有拉取正确数据,甚至还没给出符合条件的月份。
OK ,以上就是给大家做的文心一言测试。
甚至还有聊天记录形式的段子,说一旦文心无法正确答复,要用员工顶上。
发布会直播间里,质疑和嘲讽的弹幕也随处可见。
的确,对比New Bing来说,文心一言表现是挺一般,不少方面甚至可以用拉来形容。
百度自己也知道,文心一言还差了不少火候。
在测试中,它就像个不自信的小孩。
不管答案怎样,只要你一否认,他就一边向你承认错误,一边保证自己会变得更好,给他点时间。
说句实在话,我觉得这次百度,可以说是勇气可嘉。
一方面,虽然大厂们都在说自己搞了类似的东西,但是在 ChatGPT 如日中天的这会儿,百度还是敢顶住压力,发布了文心一言。
而且,作为一家搞搜索引擎的,文心一言也很可能会颠覆自己的核心业务。
毕竟咱们之前也和大家聊过,传统的搜索引擎与其广告模式,很可能会被类似的产品干掉。
百度这波啊,多少是有股激流勇进的味道。
体验完这波产品,我觉得百度最应该做的,还是尽快迭代,抓紧时间把用户体验拉上来。
不然就现在这个状态,别说是 GPT-4 和 New Bing 了,摆到 GPT-3.5 面前,还是有待增强。
至于咱们,也可以耐心一点,给这个初出茅庐的、不自信的小孩多一点时间。
万一哪天,它突然就把事干成了呢?
支持0人
反对
打赏
快科技·1997-2023 版权所有
豫ICP备18024899号-2豫公网安备 41010502003949号
热点推荐
手机扫码下载
支持Android/iOS/iPad
爆料群
爆料1群
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
CA-CAP(中国汽车耐腐蚀与老化性能评价规程)在海南博鳌举办,标志着我国汽车行业耐腐蚀与抗老化测评领域向前迈进一大步,
2022-02-14 19:44北京冬奥会开幕在即,新冠病毒已经进化出传染力更强的奥密克戎新变种,加上病毒喜寒畏热的特性,叠加春运大范围的人员流动,其防
2022-01-28 08:13又是一年岁末时,按照惯例,春节应是亲友团聚的欢乐时期。然而疫情的突袭,让家人的团聚变得更加珍贵,也让更多的家庭明白健康的
2022-01-26 16:31在这个飞速发展的信息化时代,高端产品已经越来越不是“一锤子买卖”,售后服务成为了增强用户黏性、促成口碑向销量转化的关键所
2022-01-26 14:51今年以来,沃尔沃动作频繁,受到了业界内外的广泛关注。3月,沃尔沃宣布将在2030年实现全面电动化,成为纯电豪华品牌,且所
2022-01-18 14:34