开yun体育网每次不错处理10万个汉字-kaiyun体育全站云开app入口IOS/安卓全站最新版下载
文 | Alter开yun体育网
岁首大模子行业献艺“长文本”大战时,咱们就萌发过作念一个“念书助理”的念念法。测试了市面上主流的大模子后,发现普遍存在两个不及:
一种是不错处理的文本长度不够,即使有些大模子将文本长度提高到了20万字,像《红楼梦》这么近百万字的名著,照旧需要屡次才能“读”完。
另一种是言语清醒和生成技艺不及,平凡出现“幻觉”。“长文本”的特质不单是是长,还波及到复杂的逻辑和文本语义,需要更连贯、关系的反馈。
直到前两天,一位作念AIGC的一又友向咱们同步了一个新音问:“智谱AI怒放平台肃静上线了为处理超长文本和追想型任务筹算的GLM-4-Long,撑合手1M高下文。”100万高下文长度到底意味着什么呢?咱们找来了另外两个大模子,用120回版块的《红楼梦》(大致有73万个汉字)进行了肤浅对比:
月之暗面128K的大模子,每次不错处理6.4万个汉字,需要12次才能读完;Claude 200K的大模子,每次不错处理10万个汉字,需要8次才能读完;GLM-4-Long实测不错处理150-200万字,一次就能读完一册《红楼梦》。
不外,文本长度只是一个初学技艺,能否饰演起“念书助理”的变装,必须要确保大要从大都文本中准确检索信息,出奇是当某些环节信息被置于文档的深处时,以及出色的推理和内容生成技艺。
于是咱们对GLM-4-Long进行了深度测试。
01 两分钟“熟读”钱穆先生的《国史大纲》
大致是5年前,咱们购买了钱穆先生的《国史大纲》,商务印书馆的繁体竖排版。因为是用大学教科书体例写成,学术味儿比拟浓,再加上钱穆先生精深的文笔作风,于今都莫得完竣读完。
GLM-4-Long能否胜任“书僮”的变装呢?
咱们调用了GLM-4-Long的API接口,读取了50多万字的电子版《国史大纲》,然后针对性地问了三个问题:
第一个问题:请总结这篇文档中每个部分的主要内容
原书目次中只胪列了每个章节的标题,但愿通过这个问题考证大模子是否处理了文档的一都信息,对内容的清醒和总结生成技艺。
从输出的收尾来看,不仅准确整理出了每个章节的中枢内容,还按照当今比拟主流的编年形状,将全书内容拆分为上古文化、春秋战国、秦汉、魏晋南北朝、隋唐五代、两宋、元明、清代等8个部分,内容准确度跳跃99%,只是是“两宋之部”在小标题上被列举了两次(不错通过模子微调进行优化)。
第二个问题:“秦汉国力与对外场地”在文档哪个部分?
这是一个招引性比拟强的问题,因为第七章和第八章都讲了关系配景,但钱穆先生放在了第十一章进行重心先容。
GLM-4-Long并未掉进预设的“陷坑”,准确指出了问题所在的章节和标题。这亦然长文本处理的一个典型痛点,在长达几十万字的内容中,作家可能在多个场所描绘相似的几件事,最为训诫大模子的语义清醒和内容检索技艺,并非是对文本的机械处理,意味着需要更强的抽象和内容归纳技艺。
第三个问题:北宋的开国和汉唐期间有什么不同?
搜索引擎上莫得告成关系的谜底,但钱穆先生在书中给出了系统发达,用于考证GLM-4-Long能否清醒书中的细节信息。

此次的谜底再次让咱们惊艳,分裂从开国形状、总揽形状、对外策略、经济、文化、社会、政事轨制等角度综述了钱穆先生的不雅点。出奇是在“对外策略”上,准确回话了“汉唐期间积极对外彭胀,北宋弃取保守的防范策略”,而且肤浅说起了策略变化背后的原因,即五代十国期间斗殴频繁,导致国力糟践严重。
关系的测试问题不再逐个赘述,告成给出咱们的谜底:GLM-4-Long对文档全局信息的处理、长文范例路和生成、多轮对话等技艺均超出预期,统共这个词体验有一种和钱穆先生跨时空对话的“错觉”。
另一个不应该被忽略的信息在于,一册50多万字的册本,GLM-4-Long仅用了两分钟掌握的时辰进行处理。若是念念要用大模子处理一些没巧合辰研读的长文本,GLM-4-Long某种进度上不错说是最好帮忙。
02 用多个文档试验出一位“学问博主”
许多东说念主在平素责任和糊口中交游的文档,并非是动辄近百万字的巨著,而是几万字、最多十几万字的文档和贵寓。在这么比拟巨匠化的需求下,像GLM-4-Long这么1M长文本技艺的大模子,有何异常价值?
前边用《红楼梦》作念了对比,其实还有另一种对比形状:
月之暗面128K的大模子,每次不错处理6.4万个汉字,出奇于读1本《辞世》;Claude 200K的大模子,每次不错处理10万个汉字,出奇于一次读《辞世》和《在细雨中呼吁》两本书;GLM-4-Long的1M高下文,不错一次读余华浑朴的多本书,比如《辞世》《在细雨中呼吁》《河畔的不实》《第七天》……
由此萌发的一个念念法是:是不是不错让大模子一次读多本关系的专科册本,快速试验出一个专科的学问博主?
最先念念到的一个场景便是饮食,糊口中平凡遭遇吃什么不错减肥、6月龄宝宝能弗成吃蛋黄、高血压病东说念主的饮食需要忽闪什么等问题,每次都需要搜索或者问AI,又记念内容是不是准确。
咱们让GLM-4-Long一次性读取了《中国住户膳食指南》《中国食品因素表》《中国饮食文化》《中国住户膳食养分素参考摄入量》等多个文档,然后用平素糊口中的常见问题进行了针对性发问:
8月龄儿童平素饮食应该忽闪什么?

不错看到,GLM-4-Long输出的谜底相等全面,除了要补充卵白质、维生素和矿物资,还给出了一些贴心的提倡:食品应该详细易消化,幸免大块或硬的食品,以防噎食;提倡先引入蔬菜泥,然后是生果泥,接着是强化铁的米粉或米糊;若是眷属中有过敏史,应幸免引入可能导致过敏的食品……
50岁的高血压病东说念主有什么饮食提倡?

谜底依然比拟全面,包括应将食盐摄入量鸿沟在每天6克以下、每天摄入300-500克崭新蔬菜和200-350克崭新生果、逐日摄入25-30克膳食纤维、幸免过多摄入精制糖和白面食、提倡通过食品摄入满盈的钾和钙、幸免过多摄入卵白质、远离饮酒等等,并提供了具体的食品提倡。
以上只是咱们肤浅尝试的一个场景,不错联念念到的愚弄场景还有许多。
比如一次性通读余华浑朴的统共演义,然后“变身”余华浑朴进行对话;一次性读多篇关系的论文,匡助提高论文阅读的后果;一次性读取上百份简历,然后笔据需求筛选出最适合的候选东说念主;以及找到一家企业多个季度的财报进行横向对比,从更广泛、信息更丰富的视角进行财报分析......
咱们列举的“念念法”只是是投砾引珠,肯定智谱AI在大模子技艺上突破天花板后,会有越来越多缔造者参与其中,挖掘藏在愚弄层的契机,带来多样好奇赞佩、有坐蓐力的体验。
03 “卷”长文本过渡到“卷”详尽技艺
有别于岁首单纯卷文本长度的比拼,智谱AI在GLM-4-Long的宣传和营销上不可谓不低调,却折射出了大模子市集的一个隐性共鸣:不再为了传播某个技艺硬凹需求,而是运转卷大模子的详尽技艺。
个华夏因并不深奥释。
长文本在实验上是一种才略技艺。若是将大模子比作是一台“电脑”的话,“更长的高下文”不错看作是更大的内存,大要提高多任务处理技艺、提高运行大型软件的运动度、带来更好的游戏体验等等。内存的大小,可能在某种进度上影响消费者的购买决议,却不是优先级最高的购买因素。
相同的道理,只是是在文本长度上最初,并不及以让大模子招引统共的忽闪力,不会是一条褂讪的护城河。
与之相对应的,大模子的“长文本热”就像是好景不长,缔造者们莫得趋之若鹜,成本市集陆续传出批判的声息:“嗅觉是各家公司在为抢入头部阵营作念收货,实验上照旧为了秀肌肉,掂量长文本的价值,要比及更明确的落地场景和对应的买卖模式出现,不然市集再吵杂亦然莫得效的。”
时辰昔时半年后,GLM-4-Long让外界看到了大模子新的演变标的:除了记着多长的高下文,还在比拼言语清醒和生成技艺、长文本推理和QA技艺,不再是作念长木桶的一块板,而是把把统共木板作念长。
比起咱们“浅尝辄止”的测试,对大模子行业新标的感到慷慨的,恰正是那群作念AIGC的创业者。正如那位一又友所说的:“大模子不错满足100万字的高下文,而且不错很好地、准确地实行复杂提醒,预示着巨大的念念象空间。但愿智谱AI怒放平台不错早日推出GLM-4-Long的郑再版,咱们照旧有了多个智能体关系的念念法。”
数据统计显示,中证金边中期国债指数近一个月上涨1.10%,近三个月上涨2.15%,年至今上涨4.57%。
数据统计显示,中证50债券指数近一个月上涨1.03%,近三个月上涨1.87%,年至今上涨4.25%。
自从ChatGPT走红后,统共这个词大模子行业云谲波诡。可是一个看起来有些无理的局面是:成本大多将钱投个了大模子企业,作念愚弄立异的创业者鲜有契机,即便不少东说念主都在号令创业者应该卷愚弄,而非卷模子。
回头再来看这么的局面,需要批判的不是成本的“势力”,而是缔造者们的无奈。告成的例子便是长文本,半年前的火爆只是本领上的,由于存在技艺上的短板,未能在愚弄层延续热度和爆点。借着上头的譬如,一台电脑的内存很大,可CPU、GPU、屏幕等依然是短板,缔造者很难作念出体验优秀的愚弄。
当大模子的竞争走向详尽技艺的较量,100万长文本赋予了缔造者更大的创造空间,同期在生成、推理、QA等技艺上不再被制约,注定会招引越来越多的缔造者参与进来,进一步将念念象力滚动为坐蓐力,创造出一个又一个“出圈”的局面级愚弄,加快大模子在愚弄赛说念上的高贵。
04 结语
“2024年是AGI落地元年“。
这么的预言正在被进一步考证。不单是是大模子详尽技艺的进阶,还在于本领和愚弄在方进取的长入:徐徐从博眼球式的拉新,转向“脱虚向实”, 陆续总结用户体验,千里淀出惩处实验问题的技艺。