支持长文本、长图文及长语音：讯飞星火大模型

2024-04-28 12:24:37

　　近两个月来，国内大模型卷进了“长文本”大战，科大讯飞旗下的讯飞星火大模型也不例外。最近，讯飞星火大模型迎来了 V3.5 版本的更新，此次更新显著增强了对长文本、长图文和长语音的处理能力。同时，新版本还首次推出了星火图文识别大模型、多情感超拟人合成技术以及一句话复刻功能。

　　根据官方的说明，讯飞星火大模型在长文本处理方面，能够快速吸收和理解来自不同渠道的大量文本数据，针对各个行业和专业领域的问答，提供更加精准的回答。此外，在文件上传、知识问答响应速度以及文本生成等方面，讯飞星火的效率也得到了显著的提升。

　　今年初，对讯飞星火 V3.5 版本进行了深入的体验，并将其与 GPT-4 进行了全面的比较。从的评测来看，讯飞星火 V3.5 的综合能力已经能够与 GPT-4 相媲美，在逻辑推理、数学能力和知识库更新速度等方面，甚至展现出了一定的领先优势。

　　那么，搭载了长文本、长图文、长语音等新功能的讯飞星火大模型 V3.5 更新版，体验又将如何呢？接下来，将围绕这些新功能，进一步分享体验感受。

　　红框内，就是讯飞星火 V3.5 新能力的入口，最右侧的文件里，包含了你上传过的所有文档，都会以“云空间”的形式保存在里面，方便下次使用一、长文本体验

　　长文本处理能力已经成为衡量各大模型产品硬实力的关键指标之一。

　　在日常生活中，我们不可避免地会遭遇那些冗长的文本内容，比如阅读起来乏味透顶的隐私政策，那些篇幅庞大、晦涩难懂的免责条款，还有那些曲折复杂，绕来绕去的保险合同。

　　面对这些动辄数十万字的文档，要完整地阅读它们，其难度堪比啃完哲学著作对于笔者自己而言，如果某一天在卫生间里忘记带手机，一边是放着一册 xx 保险示范条款。另一边放着一瓶沐浴露。我宁愿把沐浴露的成分列表背过，都不愿意去主动看 xx 保险条款。

　　然而，这些玩意的存在是有其必要性的，毕竟，写出来就是给我们看的。你可以选择不看，但若遇到问题，这些隐私政策和合同条款就可能成为关键。

　　所以问题来了，再比如，对于一些财务人员，又或者是文字工总而言之，这种长文本的阅读需求是生活中经常遇到的痛点，而大模型的存在意义，就是帮我们繁杂的文字中找到我们最想要、最所需的信息。

　　那么讯飞星火大模型 V3.5 的表现又如何？

　　讯飞星火大模型 V3.5 界面，为了方便大家阅读，网页放大了 50%1、合同条款类

　　首先，讯飞星火大模型 V3.5 全新引入了新引入的“星火合同助手”小组件，能全面辅助用户快速起草各类合同。

　　讯飞星火 V3.5 不仅能够提供一系列专业问题的通俗解答，确保法律准确性与合规性，还能通过其精准地判断和回答，帮助用户更有效地理解和处理复杂的信息。

　　以下图的

　　网站隐私政策

　　笔者将该隐私政策成 Word，随后上传至讯飞星火大模型 V3.5 聊天框中：

　　红色箭头部分是长文档上传入口

　　随后询问了如下两个问题：

　　概述该隐私条款中我需要特别注意的问题该隐私政策会获取我的哪些信息讯飞星火大模型 V3.5 在收到问题后，都迅速做出了简单易懂的回答。

　　接下来笔者又上传了

　　费改机动车商业保险示范条款及免责事项说明书

　　比如，笔者询问“发动机进水赔偿吗？”，讯飞星火大模型 V3.5 迅速给出了回答：

　　回到

　　不过，笔者对这个“特约条款”的意思还是不太够理解，接着继续问飞星火大模型 V3.5，给出的回答：

　　随后，同样的问题咨询了保险公司人工客服，回答如下：

　　讯飞星火大模型 V3.5 和人工客服给出的回答是一样的。

　　关于这个“特约条款”，这里插一句。

　　笔者在网上查询了一番资料，简单来讲，保险新规后，正常发动机涉水是在车损险保障范围内的。但是呢，有些人的用车环境是在沙漠或者是雨水较少的地区。那么投保这个“特约条款”，可以进一步降低保费，但发动机进水损坏后，保险公司不会理赔。

　　从讯飞星火大模型 V3.5 的回答来看，确实将这个“条款”的意思表达的清清楚楚，和客服回答的也基本一致。

　　但是，这里有个“发动机涉水是包含在车损险保障范围内”的前提，而这个前提并未出现在这份两万字的“免责事项说明书”中。讯飞星火大模型 V3.5 是通过笔者提供的长文本来检索，自然也不知道这一点。

　　接下来，笔者又问“建议购买吗？”

　　讯飞星火大模型 V3.5 给出了明确的回答 —— 不建议。

　　客服同样不建议。

　　笔者又针对保险中的各种问题进行了提问，讯飞星火大模型 V3.5 都给出了精准回答：

　　从各种回答来看，讯飞星火 V3.5 都达到了一个令人满意的水准，且具备了一定的逻辑推理能力，能够给用户一个正确的建议。

　　2、研究报告类

　　本月 26 日上午，OPPO 发布了

　　针对这份白皮书的内容，笔者也进行了一系列的提问。

　　讯飞星火 V3.5 的回答结果自然是令人满意的，且反馈速度极快，几乎就在几秒钟内给出回答。这对于一些文字工关于理想汽车的一份研究报告，有大量的图表、说明和数据，讯飞星火 V3.5 甚至还能根据报告中非常细分化的问题做出回答。

　　针对用户在科研方面的需求，这次讯飞星火 V3.5 还加入了长文本摘要能力，针对行业报告，也加入了长文本生成能力。

　　在星火助手中心中，找到星火科研助手，即可进行一系列的专业化回答。

　　笔者上传了研究报告讯飞星火 V3.5 能够提供系统性的回答，以应对这些专业领域的复杂问题。

　　长文本摘要：

　　长文本生成：

　　3、读书娱乐类

　　最后，笔者将余华但是呢，毕竟这也是一部有着 14.9 万字的长篇小说，小说里蕴含了众多的细节与情节交织，要让我给出一个周全而精准的回答，恐怕还真不容易。

　　那么讯飞星火 V3.5 的表现如何？

　　首先笔者提问，小说主人公的父亲是一个怎样的人？讯飞星火 V3.5 的回答如下：

　　在笔者看来，孙广才的后半生算是一个彻头彻底的无赖，自私虚伪，可鄙可怜。讯飞星火 V3.5 给出的回答与笔者的观点颇为接近，但评判的“力度”不太够。但不可否认，矛盾贯穿了孙广才的整个人生，讯飞星火 V3.5 也给出了这个观点。

　　关于祖父的一生经历，讯飞星火 V3.5 也能做一个简练的总结：

　　不过，关于一些更复杂的问题，讯飞星火 V3.5 在事实陈述上虽然明晰透彻，在深度评价方面稍显肤浅了一些。

　　比如，在“看待孙光明救人行为”这一问题时，讯飞星火 V3.5 回答“对其无私英雄主义的赞赏，也透露出对其鲁莽行为的批评态度。”

　　小说中

　　孙光明是为了救那个孩子才淹[*]的。将舍己救人用在我弟弟身上，显然是夸大其词。弟弟还没有崇高到愿意以自己的[*]去换别人的生。他在那一刻的行为，来自于他对那几个七八岁孩子的权威。当[*][*]袭击孙光明手下的孩子时，他粗心大意地以为自己可以轻而易举地去拯救。被救的孩子根本无法回忆当初的情景，他只会瞠目结舌地看着询问他的人。几年以后，当有人再度提起这事时，那孩子一脸的将信将疑，仿佛这是别人编造的。若不是村里有人亲眼所见，孙光明很可能被认为是自己淹[*]的。二、长图文体验比起单纯的无文字或长文本之外的复杂情况，讯飞星火 V3.5 的图文识别大模型可以针对复杂版面进行高精度解析。

　　官方表示，识别场景包括教育、专利、学术论文、报纸、金融文档、体检报告、自然场景、PPT、产品说明书、海报、读物、药盒、等等。

　　针对上述场景，你可以对中的文字信息进行提问，也可以基于文字信息进行更深入、整合性的提问。

　　以笔者刚刚买的“鼻用喷雾剂”举例，手机拍摄说明书照片，随后上传至讯飞星火 V3.5 中。

　　笔者询问注意事项、使用方法，讯飞星火 V3.5 都能给出具体回答。

　　从结果来看，基本上是将说明书中的文字信息“OCR”了出来，然后根据词义整理，反馈给提问者。

　　更复杂的场景，笔者上传了 USB 测试仪使用说明书的截

　　针对不同的接口，进行了功能提问，讯飞星火 V3.5 回答也令人满意。

　　笔者又上传了此前参加活动拍摄一张 PPT ，并让讯飞星火 V3.5 提取照片中的重点。

　　结果显示，讯飞星火 V3.5 准确地识别出了照片中的内容，并且正确判断出这是广汽集团的技术展示，同时注意到了在场观众对此表现出的高度关注。

　　写到这，笔者简单感慨一下，这个功能的想象力空间确实巨大，特别是对于视障人士而言，尽管他们的双眼无法看见，但只需通过手机拍下照片，上传至讯飞星火，便能立即通过语音描述，将眼前的世界传达给视障者，能够给日常生活带来极大的帮助。

　　当然，现阶段的体验也并非十全十美，比如就出现过一次“已读乱回”的现象，回答得莫名其妙，有一定的优化空间。

　　三、长语音、体验

　　在当今的学习与生活中，我们不仅需要大模型来助力文字处理，同样也需要其协助处理语音和资料。尤其在“全民短”的风潮下，明明一两句就能说明白的话，非要做成一个。

　　同时，对于学生群体和职场人士而言，无论是学术讲座还是商务的资料都包含了丰富的信息。关键在于，如何从这些中高效提取出核心要点？

　　升级后的讯飞星火 V3.5 能够协助用户在这些多媒体内容中迅速捕捉和理解关键信息。

　　笔者上传了针对音频，笔者提问了音频的主要内容，讯飞星火 V3.5 用极短的时间给出了回答。

　　从结果来看，基本是令人满意的。

　　不过也有一些细节上的小错误，比如把极氪识别成了“极客”，把蔚来 ET7 识别成了“A7”，但瑕不掩瑜，这个表现已经很出色了。要知道，上述音频中有各种新技术名词、新车名称，以及各种汉英夹杂的情况，这本身就有非常高的识别难度。

　　接下来笔者又围绕腾势、迈腾等新车，提出了更具体的问题，讯飞星火 V3.5 的答复都很令人满意。

　　讯飞星火 V3.5 同样也支持上传，就拿发布过的首先，笔者让其概述整个内容，讯飞星火 V3.5 给出了精准回答。

　　不过，一个细节上的小错误，把“HarmonyOS”识别成了“哈姆 6s”，但是整体回答并没有偏离主题，也没有给出含糊不清的回答。

　　询问推荐哪些值得买的产品，讯飞星火 V3.5 也能依次排列，并给出每个产品的亮点。

　　另外，在体验中，讯飞星火 V3.5 在识别过程中，也没有太长的加载时间，基本问题都是按“秒”来回答的，而且是越用越快，你问的问题越多，它回答的速度就越快。

　　四、讯飞星火语音大模型

　　讯飞星火 V3.5 这次升级了星火语音大模型，带来了“多情感超拟人合成”和“一句话声音复刻”首发两项功能，偏趣味性体验。

　　在语音对话中是一个类似通话界面，而讯飞星火大模型所提供的回答非常接近自然人声，虽然带有一丝机器人特有的韵味，但整体上已经非常逼真。

　　“一句话声音复刻”就很有意思了，它可以模仿你或者是身边其他人的声音。完成声纹录制后，你可以在“我创建的发音人”中找到自己的声音。选择后，在使用语音交互时，大模型就会以自己的声音与你对话，且声音还原地相当真实。

　　大家可以点击下方感受一下：

　　总结：

　　AI 不是一个新鲜的概念，几年前谈及 AI 改变生活，笔者总觉得是天方夜谭，遥不可及。然而，也就在这短短两三年的时间里，AI 技术迎来了爆炸性的升级变革，一个真正属于 AI 的黄金时代就在眼前。

　　在这个过程中，科大讯飞既是参与者，也是推动者。讯飞的星火大模型，也仅仅是科大讯飞在 AI 领域创新的一个具体呈现之一。

　　这一次讯飞星火大模型 V3.5 升级，在长文本处理、图文识别以及长语音和处理方面都展现出了卓越的能力，重点加码了用户在专业性、实用性这两方面的需求体验。

　　就拿开头讲到的那样，我们每天要接触着海量的信息，一份用词晦涩、专业术语堆积、绕来绕去的合同，又或者是复杂难懂的免责条款就能难道无数打工人。

　　在过去，或许需要上网查阅各种资料，又或者是花钱咨询专家来获得帮助。这个过程中，你或许还会遇到各种充值缴费才能显示答案，寻找专家过程中也难免遇到各类骗子。

　　但是有了讯飞星火大模型 V3.5 这类应用的出现，上述问题处理的就非常简单了。

　　类似的场景还有那些冗长繁琐的会议音频，打工人可以轻松地在几万字的车轱辘话中找到最关键的那几句；在中迅速提取精华，甚至为科研报告快速生成摘要...

　　尽管讯飞星火大模型 V3.5 在某些细节体验上还有待优化，但其所带来的想象力空间无疑是巨大的。

　　今年 6 月 27 日讯飞星火 V4.0 将正式发布，届时还将带来哪些新功能，我们可以好好期待一下了。