临比年末,各大手机品牌新机新机连接发布,一场接着一场的发布会导致我们加班成了常态。窘况之时小雷倏得预见,大约我们可以用生成式AI撰写一些信息量较多,无需过多解读的著作,以缓解使命疲顿。
但在确切使用生成式AI匡助我们使命之前,天然要对比测试一下刻下行业东谈主气比较高的几款AI大模子,望望它们是否确切可以完成我们的使命。
研究到现阶段生成式AI不少可以免费使用,部分需付费使用,公正起见,小雷遴选了豆包、Kimi、讯飞星火三款免费AI大模子,以及文心一言可免费使用的文心3.5版块和免费版GPT-4o。测试进程方面,小雷准备了三重锤真金不怕火,包括回来才略、著作撰写才略,以及图片生成才略。
谈天未几说,我们成功干涉正题。
数码圈酬劳回来:只得外相,却失骨血
今天险些悉数AI齐加入了文档回来才略,因而小雷嗅觉,仅仅对生手机的发布会文档进行回来,难度似乎有点低。于是,小雷找到了之前看过的小红书《潮水数码白皮书》PDF文献,该文献约有2万字,深度剖析了小红书平台潮水数码的近况、发展趋势,并给数码家电品牌建议了相应的营销建议。
分析一份大小杰出30MB的文献,关于这几款AI大模子齐是挑战。
豆包:数据塌实,深远内容剖析
作为字节进步建造的AI大模子,豆包领有广大的著作数据库可用于测验,亦然刻下小雷常用的AI助手之一。豆包将《潮水数码白皮书》回来出中枢不雅点、小红书数码行业近况、潮水数码东谈主群与趋势、营销责罚决策、改日预测五大板块。
(图源:豆包截图)
其中最为要津的营销责罚决策板块,豆包还点出了应当收拢对应的时辰节点进行营销,这是其他悉数AI大模子齐未能作念到的事。尽管仍遗失了不少信息,但豆包回来出的内容昭着优于其他几款AI大模子。
讯飞星火:精熟简易,要津信息缺失
讯飞星火与豆包的作风完全不同,豆包的回来大而全,讯飞星火的回来则极为精简,全文加起来的字数齐莫得豆包回来出的营销责罚决策一个板块多。
(图源:讯飞星火截图)
字数多虽不一定好,但两万多字的文献,回来到五百多字,不免要断念广宽内容。事实也恰是如斯,讯飞星火回来出的内容过于简练,看不到太多有用信息,也莫得明确的分析,合座显得过于隐晦。
Kimi:车轱辘话多,大厂味浓浓?
第三个进行测试的是Kimi,关于《潮水数码白皮书》,Kimi足足回来出了八大板块,但每一个板块的字数齐未几,有点浅尝辄止的意味。何况与讯飞星火调换,Kimi也莫得回来出任何数据,有点大厂打工东谈主开会的嗅觉,主打一个“不说东谈主话”。
(图源:Kimi截图)
严格来说,Kimi回来出的内容更像是一份大纲,可以把柄其填补缺失的部分,但关于我们了解PDF的内容,莫得太多匡助。
文心3.5:满屏小标题,有用信息少
若是说Kimi回来出的终结是一份大纲,那么文心3.5回来出的内容则像是著作的标题和小标题,一句又一句的短语,有用信息却未几,能够回来出数码行业东谈主群财富限度情况是少有亮点。
(图源:文心一言截图)
GPT-4o:我不支柱解析PDF
前边几款AI大模子无论回来的终结奈何,但至少给出了一个谜底,GPT-4o却成功自大无法稽察和处理PDF文献。
(图源:ChatGPT截图)
ChatGPT险些是公认的最强LLM(大谈话模子),却无法稽察和处理PDF文献,实在令小雷有些失望。
小结:车轱辘话走动转,准笃信息看不见
本以为内容回来是AI大模子的基础功能,豆包、讯飞星火、Kimi、文心3.5,以及GPT-4o的进展却令小雷大失所望。豆包回来的内容特等据有分析,对付能够达到合格分,其他几款AI大模子交上的答卷不说是0分,也没高出太多。
AI大模子关于《潮水数码白皮书》的回来,广宽是车轱辘话走动转,鲜有话语能够落到实处。举例营销布局部分,PDF统计了不同居品的最好营销节点,暑期毕业季打游戏和旅游东谈主群多,适合作销台式机和录像机;女生可爱拍照和音乐,38女王节则适合作销数码相机和蓝牙耳机。在评测的几款AI大模子中,只好豆包提到了一些联系内容,
(图源:《潮水数码白皮书》截图)
在本轮评测中,豆包的进展无疑是最好的,讯飞星火、Kimi、文心3.5三款大模子,虽没能回来出太多有价值的信息,但至少输出了内容,进展可列为第二档,被托付厚望的GPT-4o,进展则失神不少。
天然,回来功能不外是开胃菜,关于其他著作的回来才略不及,不代表撰写的著作的才略不行。
发布会报谈:GPT水土抵御,国产大模子出色
为了突显出裁剪撰写和AI生成的差距,小雷挑选了雷科技小伙伴撰写iQOO Z9 Turbo+发布会著作作为对比。该手机发布于今已有一段时辰,收集上的联系著作不少,AI能够应付找到素材,相对而言更简便一些。
开始望望雷科技小伙伴撰写的资讯报谈,该著作逻辑领会,将iQOO Z9 Turbo+的硬件竖立、游戏帧率、居品亮点、价钱完竣胪列,并对其竞争力进行了分析。
(图源:雷科技著作截图)
受限于篇幅与时效性条目,雷科技小伙伴撰写的这篇资讯报谈并未深远解析与体验居品,但败坏者但愿能够了解到的信息,基本完竣评释。
撰写著作是生成式AI的基础功能之一,豆包、讯飞星火、文心3.5等AI大模子还提供写稿类型或作风可选,以匡助用户快捷创作著作。
(图源:豆包截图)
谈天未几说,我们来望望AI大模子撰写这一款居品的发布会报谈(由于iQOO Z9 Turbo+已发布相配长一段时辰,收集上的贵府已十分充沛,能不行写好就看大模子的期间实力了。)
豆包:信息密致,逻辑领会,原创度超50%
豆包撰写的著作比雷科技小伙伴所写的内容更长,层次相似领会,外不雅盘算推算、性能、散热、屏幕、电板、影像、价钱每一部分齐单独列了出来,并加上了小标题。该著作不但竖立细节相对丰富,何况莫得出现演叨。值得一提的是,价钱尺度雷科技小伙伴报谈称iQOO Z9 Turbo+ 12GB+256GB首发价钱为2199元,但内容上如豆包撰写著作所言,应该是2299元,首销特价2199元。
(图源:豆包截图)
小雷使用某自媒体用具对该著作进行了原创度检测,查询到该著作的原创度为50.56%。一般来说,自媒体平台会条目著作原创度在70%以上,但研究到该著作为资讯报谈,内容包含了广宽参数信息,原创度能够达到50%摆布,内容上依然不低了。就算是雷科技小伙伴我方写的著作,该用具检测自大原创度也在50%摆布。
(图源:自媒体用具截图)
豆包撰写的发布会报谈,竖立信息、价钱、时辰莫得错漏,查重率能够达到50%摆布,是一篇合格的著作。不外著作段落之间的振荡略显生硬,且莫得见识和分析,与雷科技小伙伴创作的内容有一些差距。
讯飞星火:著作简练,信息塌实,但层次不够领会
与回来部分调换,讯飞星火大模子创作的著作依然较为简练,正文内容约700字,不到豆包撰写著作的一半。不外这篇著作内容也裕如塌实,仅仅电板容量数据出现了错漏,比真实容量低400mAh,何况著作层次性不如豆包撰写的著作那么领会。
(图源:讯飞星火截图)
查重率方面,自媒体用具检测自大,讯飞星火著作原创值为61.02%,比豆包撰写的著作更高。有道理的是,这些AI大模子似乎格外可爱“轰动”二字,讯飞星火拟定的标题也带有这两个字,并被自媒体用具检测为犯禁词。
(图源:自媒体用具截图)
站在裁剪的角度,小雷合计讯飞星火撰写的著作较为精熟,并不比豆包撰写的著作差,何况原创度更高。可惜电板容量数据出现了小冒失,若是使用讯飞星火写著作,最好我方详备查验和对比参数数据,幸免文中出现演叨。
Kimi:演叨信息较多,AI风过于横蛮
Kimi是小雷正常使用最多的AI助手,但这一次它太让我失望了。Kimi所撰写的iQOO Z9 Turbo+发布会,莫得注明发布会时辰,开售时辰演叨,处理器、电板、快充功率、价钱等数据,一项对的齐莫得。连数据齐演叨连篇,其他语法、结构根蒂莫得看的必要了。
(图源:Kimi截图)
该著作的原创度达到了58.52%,倒是不算低。但是革新一想,本应充满参数的发布会报谈,从硬件竖立到价钱到处齐是演叨,原创度竟然未能达到70%以上,昭着问题很严重。
(图源:自媒体用具截图)
毫无疑问,Kimi撰写这篇著作分歧格,发布会报谈最蹙迫的硬件参数出现了太多演叨,致使在其基础上大改,齐不如我方重写一篇报谈。
文心3.5:交出高分作文,我愿称之为最强
百度是刻下国内图文资讯平台巨头之一,用于测验的数据相似丰富。在前边三款AI大模子撰写的著作中,豆包后发先至,文心3.5所撰写的著作,在小雷看来比豆包还要强一些。
文心3.5创作的iQOO Z9 Turbo+发布会报谈全文不到1200字,莫得通过小标题分段,著作紧凑且数据莫得昭着演叨,也点出了12GB+256GB限时特惠价钱。文心3.5创作的内容亮点在于AI味莫得那么浓,行文很像真东谈主撰写,除了言辞略显软文作风和莫得任何分析外,其他作念方面齐可以。
(图源:文心一言截图)
原创度方面,该著作达到了57.77%,相似优于豆包创作的著作。另外,文心3.5拟定的标题莫得“轰动”二字,自媒体用具也莫得检测出任何可能存在违法情况的词语。
(图源:自媒体用具截图)
作为国内用户数目最多的搜索引擎和头部图文资讯平台,百度期间实力、测验数据量开始绝大多数AI公司,文心3.5的进展也莫得屈辱百度,所撰写的发布会报谈可以行为原创著作发布。
GPT-4o: 内容很是朦胧,水土严重抵御
互联网一直流传着一个说法,中国网民数目虽天下第一,但孝顺的信息只占互联网的不到1.5%。事实上,这是因为该数据只统计了不包含中国大陆地区的互联网信息,国外互联网中语信息太少。正因如斯,用于给ChatGPT测验的数据也未几。
(图源:ChatGPT截图)
免费版GPT-4o撰写iQOO Z9 Turbo+发布会报谈之时,就出现了水土抵御的情况,股票操作数据杂乱不胜,何况内容字数未几,只好简便的先容,致使不如Kimi撰写的著作,完全莫得查重的意旨。
小结:撰写发布会报谈,AI已达科技裁剪实习生水平
这几款AI大模子的进展讲授,尽管AI缺少确切的逻辑推理才略,写长文和分析类内容较为忙绿,但在信息量充足的情况下,创作发布会报谈已不是问题。小雷建议媒体敦朴参加发布会不要发通稿了,至少可以用AI创作一番。
不外,AI撰写的著作作风和逻辑性与裁剪仍有差距,暂时无法代替专科裁剪完成更多任务。像雷科技裁剪参加发布会,重心居品必须要输出大几千字的长文解读,包括发布会基础信息、高管发言解析、现场居品体验、现场响应不雅察,以及深远居品对背后的期间、公司、品类和行业深远解析,这些是面前的AI作念不到的。
AI大模子之间的差距也十分昭着,本轮测试中语心3.5和豆包进展出色,创作的内容行文流畅,也莫得昭着的数据演叨,可并排第一梯队。讯飞星火延续了精熟的作风,字数天然未几,但该有的齐有了,天然有一些数据演叨,但并未几,大多数数据依然准确,位列第二梯队。
Kimi以长文本生成与解析才略著称,不外似乎不太擅长撰写著作,出现了较为严重的数据演叨,GPT-4o因水土抵御,撰写中语报谈问题较为严重,加钱升级至ChatGPT Plus能力享受到更好的就业,这两款大模子在本轮测试中位列第三梯队。
在日常使命中,AI大模子关于我们而言,除了襄理查验著作的错别字、语病等问题,还有一项实用的功能——AI绘画。因此,小雷有益加入了绘画测试尺度。
数码圈著作配图:偶尔能用,但普及空间较大
因顾虑版权纠纷,雷科技小伙伴为著作配图时极其严慎,但好多著作配图较为缺乏,因而小雷世俗使用AI生成图片。
最启动小雷本想使用AI生成一张iQOO Z9 Turbo+的图片,终结悉数AI大模子齐不行准确生成指定机型,即便互联网上已有不少该机型的图片。小雷只好将限度语定为“一个东谈主捧入辖下手机打游戏”,隆起使用手机的场景,淡化具体手机型号,用于著作封面。
(因不支柱绘画功能,Kimi不参与本轮测试。)
豆包:未能正确贯穿游戏与手机
在前几轮取得了优异收获的豆包,本轮测试却有点离谱,似乎无法正确贯穿“手机”和“游戏”,所绘制的图,齐是拿着游戏手柄,何况手指存在不调解的情况。
(图源:豆包截图)
豆包绘画功能提供的选项较为丰富,可遴选不同作风,小雷又用东谈主像照相作风试了一次,终结给出的图片作风换了,但图片中的东谈主手中执着的依然是游戏手柄或者豪恣的手机。
(图源:豆包截图)
在贯穿天然谈话和绘画方面,豆包的进展并不出色,但提供的绘画后期处理功能为其扳回一分。AI生成的图片基本为1:1比例,即便在形色中加了比例限度词,生成的图片如故1:1,不适合用作著作配图和封面。豆包加入了区域重绘、扩图、擦除等功能,可以对图片进行一定进度的修改,举例小雷就使用扩图功能,将1:1的图片膨胀至16:9,更适合用来作念著作封面。
(图源:豆包截图)
尽管有这些功能,本轮测试小雷依然无法给豆包打高分,毕竟识别天然谈话并绘制出我们想要的图才是最蹙迫的功能,后期修改有太多用具可以末端。
讯飞星火:正确生成图片,自界说才略不及
在前几轮的测试中,讯飞星火进展中规中矩,但本轮测试讯飞星火却拿到了高分,所绘制的图片接近我假想中的终结,最容易出错的手指处也莫得太严重的不调解。
(图源:讯飞星火截图)
缺憾的是,讯飞绘画群众智能体提供莫得提供创作作风可选,也莫得后期处理功能,以至于著作的比例不适合用于著作配图,且未能隆起“捧入辖下手机打游戏”的主题。若是想要将这张图处理成封面,还需要其他利用的介入。
文心3.5:完全可用,“著明之下无虚士”
与豆包、讯飞星火生成的图片比拟,文心3.5绘制图片更相宜小雷的预期。
开始,其他几款图片的手机齐暴暴露了后头,可后头结构较为复杂,很是容易出错,何况用户能够一眼看出图片是不是著作提到的手机,文心3.5则隆起了手机的正面,用户难以区别这是哪一款机型。
(图源:文心一言截图)
其次,讯飞星火生成的图片重心落在了全景,文心3.5绘制的图片则聚焦手机主体,隆起了“捧入辖下手机打游戏”这一主题。独一缺憾的是,手机屏幕莫得自大游戏画面。
文心3.5相似莫得提供作风选项和后期处理功能,期待文心3.5可以后续丰富一下绘画功能,为用户著作配图提供更多便利。
GPT-4o:机身、屏幕全乱套,绘画如斯拉胯?
AI绘制手机图移时最大的问题在于后头的盘算推算元素细节衰败,但GPT-4o给出的终结,比小雷预感中更离谱,因为它将本该是手机后头的区域,绘制成了手机屏幕……
(图源:ChatGPT截图)
只可说,ChatGPT并不是全能的,无论是撰写著作如故制作图片,齐可能出现各式问题。GPT-4o自身也莫得提供后期处理功能和作风仪取,看来除了部分专科AI制图软件,如豆包一般提供图片丰富作风仪取和后期功能的AI大模子并未几。
临了说一下图片的区别率,雷科技配图关于图片的领会度和区别率齐有一定的条目,封面图的条目就更高了。这四款大模子中,讯飞星火和GPT-4o绘制的图片区别率为1024×1024,领会度昭着较高,文心3.5绘制的图片区别率则为769×768,区别率最低,无法用作雷科技著作封面。
豆包生成的图片原图亦然1024×1024,但可以使用扩图和重绘功能进行修改,举例小雷将图片扩图为16:9后,区别率就酿成了1820×1024。
小结:绘画不如撰文造就,检阅空间齐不小
绘画功能是AI大模子的基础功能之一,亦然弥远围绕着AI大模子的贫乏,从终结来看,AI大模子细节方面依然有所欠缺,如豆包未能正确贯穿限度词,GPT-4o将手机后头区域绘制成了屏幕等等。但我们也能看出AI的进步,曾被用于区别AI和真东谈主绘画的手指部分,AI作图的和谐性越来越高,很少再出现多一根或少一根手指的情况。
当我将讯飞星火绘制的图片上传至其他AI大模子,测试是否能够调整为16:9比例时,发现悉数AI大模子齐无法准确识别辅导,讯飞星火更是称图片已是16:9比例,豆包则基于该图片重绘了一张1:1的图片,似乎悉数AI大模子齐无法准确识别图片比例或难以把柄指定比例绘画,这点也急需检阅。
(图源:豆包AI截图)
大多数AI大模子只提供绘画功能,莫得相应的模板和后期处理功能,很难自若为著作绘制配图和封面,这几款AI大模子的绘画功能仍有较大普及空间。
回来:AI入职科技媒体作念裁剪,改日可期?
经过三轮测试,小雷合计,面前AI倘若“入职”任何一家科技媒体,只怕齐很难通过试用期,虽说部单干作偶尔可以达到实习生水平,但大体上距离一位合格的裁剪还有较大差距。
一位合格的科技媒体裁剪,至少需要以下才略:
有极强的信息得回、甄别、筛选、索要才略;
快速创作内容,对发布会进行报谈,在真实场景对居品进行体验,再建议我方的观点、行业不雅察,以及深远浅出的期间解析;
具备一定的裁剪才略,可通过配图、排版提高著作的可读性,增多读者的用户体验。
面前看来,AI要作念好其中任何一项使命齐很难。
在这三轮测试中,最令小雷出东谈主预见的是第一轮测试,回来PDF重心内容,表面上是最简便的任务,可莫得一款AI大模子可以达到高分,广宽是车轱辘话走动转。第二轮测试是平均进展最好的一轮,只好Kimi和GPT-4o出现了较为严重的问题。
而第三轮测试中,讯飞星火和文心3.5进展较好,其他两款绘制出的图片齐存在昭着纰谬。但是文心3.5绘制出的图片区别率太低,讯飞星火未能隆起主体,只可算高分,却拿不到满分。
三轮测试下来,抽象进展最好的是文心3.5和豆包,其次则是讯飞星火,Kimi和GPT-4o则进展相对较差。天然,本次测试并不行代表文心一言和ChatGPT的一谈实力,这两款大模子齐有付费版,掏钱能力享受更好的体验。
一言以蔽之,AI大模子依然领有了撰写发布会著作的才略,但讯飞星火的数据演叨标明,哪怕确切用AI大模子创作著作,也要有裁剪加以审核和整理,幸免出现数据信息错漏。而面临较长的案牍,AI大模子给出的内容很可能会像回来出的文档一样,车轱辘话乱转,却说不到实处。
(图源:豆包生成)
2022年底AI大模子才爆火,于今不外两年时辰,从最月朔片讥嘲之声,到面前越来越多东谈主袭取了AI大模子,并将其作为提高使命终结的帮手,AI大模子的进步肉眼可见。如小雷就世俗使用豆包AI生成图片,用Kimi襄理查验著作。
两年时辰能取得如斯惊东谈主的进步,也让小雷对AI更有信心。仅仅AI不具备确切的推理才略这一问题,可能会成为终止AI功能发展的进步。
在《GSM-Symbolic: 贯穿大型谈话模子数学推理的局限性》论文中,究诘东谈主员称AI大模子只可套用测验数据的步地责罚问题,一朝出现严重的数据沾污,AI大模子回复问题的准确度就可能大幅下落。
至少以面前的眼神来看,AI大模子天然可以不休进步,但完全取代裁剪撰写著作仍是不可能的。唯有确切赋予AI推理才略,能力让AI告别套用现存步地,用“念念考”去责罚问题。