科大讯飞的「星火」认知大模型(以下简称“星火”)在推出之际,便高调宣称对标ChatGPT。那么星火究竟到了什么水平?足够叫板AI赛道的霸主吗?

出品 | 微果酱(wjam123456)
作者 | 陈出木

在此前测评百度文心一言的文章评论区,有小伙伴表示,星火的“使用效果不错”。

星火是科大讯飞经过5个月时间研发出来的大模型,在5月6日的发布会上正式面世。在国产大模型中,星火算不上首发玩家,科大讯飞的知名度也没有其他大厂们高,却少见敢公开对标ChatGPT的。

果酱妹这不就给大家火速安排了一期实测,看看相比名声在外的ChatGPT和文心一言,星火到底好不好使。

01#
如何正确打开星火?

打开星火的官网(https://xinghuo.xfyun.cn/),登录并点击“申请注册”,等待官方审核通过即可体验。

有一说一,相比文心一言的部分内测申请能卡上一个月,普遍反馈星火的审核速度很快,果酱妹在注册申请后一个半小时就通过了审核。

进入星火的界面,对话框和其他模型相差无几。

对比连色调都有些类似的文心一言,星火的左边栏有“纯净”和“沉浸”两种模式,可以将界面主题色调整为蓝色和黑色。但仅能调色的功能和能通过修改模式调整回答风格的Bing相比,似乎落于下风。

在星火的右边栏还有四个导航按钮,包括使用指南、意见反馈、指令推荐和直播回看四个功能。其中,点击“指令推荐”,可以看到星火根据行业和应用场景不同,准备了常用的指令集合,可以降低用户通过AI对话来获取想要答案的门槛。

如果用户找到合适的指令,可以直接点击“执行”跳转提问对话。不过,果酱妹在使用过程中,发现只有前面第一行的指令能够如此操作,下方标注了“编辑执行”的指令,则需要复制并人工切换页面进行操作。

此外,星火也和文心一言一样提供了模板功能,在对话框输入“/”即可选择相应问题模板,就模板数量而言,星火略胜一筹。

02#
星火会是国内版ChatGPT吗?

在星火的发布会上,官方自信表示,

中文领域已在文本生成、知识问答、数学能力3个维度超越ChatGPT,并将于10月24日在中文上超越ChatGPT,在英文上达到跟它相当的水平。

那么,星火到底能不能行?

1、文本生成

对于新媒体人来说,文本生成功能是一个重要辅助。所以,果酱妹选择把今天的选题交给星火试试手

尽管提问中出现了错别字,但并不妨碍星火识别问题并作答,生成的文章基本通顺,连接词、过渡句也都不缺,甚至兼顾了“风格生动有趣”的需求。

果酱妹又对这篇文章提出了细化的需求,但星火生成的是一篇步骤完善的报告,需要再次引导才能转化成文章。

而和其他AI大模型一样,星火也难以与时俱进,对网络热点或热梗都不能很好地理解并响应。比如面对分析最近走红的“挖呀挖”“泰裤辣”等热点事件,星火的回答可谓无中生有,除了结构,通篇离题。(用AI来追热点的梦碎了)

果酱妹还测试了星火的短篇文案生成能力。就朋友圈文案和小红书文案的生成情况来说,需要有更强个人主观色彩的朋友圈文案表现并不能让人满意,而商业化更重些的小红书文案则相对良好。但对于做客服或运营的小伙伴来说,星火还是能胜任“小助理”的角色的。

短视频脚本也能生成,但仍需要人工进行引导、调整、润色。

而到“藏头诗”环节,星火就失灵了。无论果酱妹如何更换藏头的关键词,星火一意孤行,坚持不按照传统的藏头诗形式作答。或许是因为星火并未接受过这方面的训练,其并不能正确理解“藏头诗”的意思。

当果酱妹指出星火的错误之后,AI认错但胡说八道的本能再次出现。显然,在传统文化方面,文心一言还是领先了一些距离的。

除了作文,星火在生成邮件方面的表现大致及格,会根据收件人是好朋友还是老板,转变邮件的措辞风格。但相对来说,星火更擅长工作类型的邮件,而涉及情感因素的邮件仍然比较生硬。

可以说,星火在文本生成方面的能力是能超过及格线的,对问题及提问意图都能够做出相对正确的理解判断,并生成基本合格的答案。但星火也有AI的通病,无法处理主观性太强的内容,及训练不充分的传统文化内容。

2、知识问答

果酱妹首先向星火提问了曾经难住文心一言的脑筋急转弯——能否把大象放进冰箱。星火理解了问题的本质并轻松解决,答案和Bing类似。

但除了这种非常经典的问题,星火并不能够回答出相对少见的脑筋急转弯问题,即便这些问题对于人类小朋友来说并不难。

此外,星火在音乐方面暴露了短板。面对果酱妹提出的找歌和介绍乐队的需求,星火出现了编造答案的的情况。且不论问题,其给出的答案中,事实错误包括歌曲《妈妈的吻》并非由李玟演唱,The Traveling Band这支乐队和乐手在百度暂时查无此人等。

当然,如果回归到相对常规的问题,星火还是能够做好的,诸如腰疼的原因和应对、用PPT制作动画的步骤等生活工作类型的问题。

可见,星火或许还是太年轻了,接受的训练和数据库的广度都存在不足,导致其在知识问答方面有巨大短板。就这方面而言,具备搜索引擎业务的百度文心一言和微软Bing显然有更大的优势。

3、数学能力

鉴于此前在文心一言和Bing上都因为数学碰过壁,果酱妹对于星火的数学能力其实并没有抱非常大的期待。结果也不出预料地翻车了,前两者没有解决的问题,星火也没能做出来。

但如果换成《孙子算经》上记录的鸡兔同笼问题,星火又可以了。

甚至包括鸡兔同笼问题的变式,星火也能够解出正确答案。

经过几次测试,星火的数学能力大约相当于小学生水平,初中及以上的题目基本都以失败告终。(问AI还不如问更专业的XX搜题)

03#
写在最后

近日发布的中文通用大模型综合性评测基准SuperCLUE,其评测与排名的结果显示,国产大模型中,科大讯飞研发的星火认知大模型总排名第三,国内排名第一。

单看图表,星火和文心一言差距极大。但一番测试下来,我们不难发现,AI的优势和毛病,星火其实一个不落。

在交互方面,星火更类似于ChatGPT,不像文心一言那么生硬,脾气也更好一点。而回归业务能力,星火和文心一言其实差不多,日常的都能做,但难度一加码就翻车,热点热梗跟不上,并且都是数学不好的偏科生。

当然,文心一言还年轻,星火更是在初生期,我们需要给国产大模型更多的耐心和时间。仅就当前阶段来说,它们已经能够在生活工作中发挥一定的辅助作用,至于如何扬长避短,就是人类需要做的事情了。

这也意味着,AI工具普及已经在潜移默化中开始了,我们不应该成为最后知道的那一批人。

举报/反馈

微果酱

1.8万获赞 1.7万粉丝
微果酱,新媒体的建设者
关注
0
0
收藏
分享