前往研报中心>>
计算机专题研究:通过Kimi,看长文本的实现
内容摘要
  Kimi上下文长度10倍增长,引领国内大模型长上下文迭代新方向

  大模型的长上下文支持能力已经成为重要的迭代方向。海外相对超前,AnthropicClaude3模型标配200K上下文,并可向特定客户提供1M长度;GoogleGemini1.5Pro标配支持1M上下文长度,内部已实现10M。国产大模型初创公司中,月之暗面的Kimi智能助手在23年10月即实现了20万字上下文,并在24年3月进一步迭代成为200万字。同月,阿里通义千问宣布文档解析功能支持1000万字;百度文心一言将在4月的更新中支持200万字以上的长文本能力;360智脑开始内测500万字长文本处理功能。长上下文已成为全球大模型迭代重要方向,关注其他国产模型厂商进展。

  大模型长上下文,主要通过优化Transformer架构实现

  目前,全球大模型仍然以Transformer解码器为主要架构基础。在此基础上,可以通过改进解码器架构来实现长上下文,主要改进方法包括:1)高效的注意力机制:降低计算成本,在训练时实现更长的序列长度,相应的推理时序列长度也就更长;2)实现长期记忆:设计显式记忆机制,以解决上下文记忆的局限性。3)改进位置编码:对现有的位置编码进行改进,实现上下文外推。4)对上下文进行处理:用额外的上下文预/后处理,确保每次调用中输入给LLM的输入始终满足最大长度要求。

  国内大模型厂商可能采取了多种路线混合优化方法实现长上下文

  长上下文作为核心技术,各厂商选择不公开。以月之暗面为例,其创始人杨植麟主要的学术论文Transformer-XL和XL-Net,均探讨了长上下文的实现方法,且前者属于长期记忆力的优化,后者属于特殊目标函数的优化。百度的ERNIE-Doc则同时采用了长期记忆力和特殊目标函数的优化方法。阿里Qwen-7B则使用了优化的位置编码算法extendedRoPE。所以我们推测,国内模型厂商之所以能够在短期内实践出长上下文方法,或是在原有积累的基础上进行了算法迭代,采取多方法的混合优化,实现快速超车。

  长上下文的通用性将解决多类场景需求,带来应用突破机会

  具有长上下文的大模型通用性更强,用户将特定领域的知识通过上下文的方式输入到模型中,模型即可以通过上下文学习掌握相应内容,一定程度上代替模型的微调。此外,长上下文模型能适应虚拟角色的个性化信息记忆、开发者的长prompt输入、AIAgent的多轮调用需求,以及金融、法律等垂直客户长文档输入需求等多种场景,有望为AI+应用带来新的突破机会。

  关注大模型长文本潜在受益产业链

  长文本应用场景:1)文本工具:金山办公、福昕软件;2)法律文案:华宇软件、通达海;3)业务流程:泛微网络、致远互联;4)其他文本:汉仪股份、汉王科技。专业领域+多任务+多模态场景:1)金融领域:同花顺、恒生电子;2)医疗领域:嘉和美康;3)电商领域:光云科技。AI算力:浪潮信息、神州数码、海光信息。

  风险提示:宏观经济波动,技术进步不及预期。本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

回复 0 条,有 0 人参与

我有话说

禁止发表不文明、攻击性、及法律禁止言语;

还可以输入 140 个字符  
以下网友评论只代表同花顺网友的个人观点,不代表同花顺金融服务网观点。