为AI投研能力锻造一把真实标尺——讯兔科技重磅发布iRaB投研实战评测体系

2026-06-25 14:17:39
分享
文章提及标的
信息发展--
Benchmark--
Alpha--
天风证券--
国金证券--
光大证券--

2026年6月,讯兔科技在金融AI生态论坛暨PaiWork+发布会上,发布iRaB(Investment Research Agent Benchmark(BHE))投研实战评测体系。会上,讯兔科技首席科学家刘广文、算法科学家方诗涛,以及香港中文大学(深圳)经管学院、上海交通大学信息技术(300469)创新系张宏哲,分别从评测动机、构建方法和横评结果三个角度,介绍了这套面向AI投研场景的评测体系。

在大模型和Agent快速迭代的背景下,金融AI行业并不缺新模型、新产品和新案例,真正稀缺的是一把能衡量真实投研能力的尺子。iRaB的目标,是把AI投研能力从自说自话的产品宣传、零散case和通用Benchmark(BHE)中拉出来,放到真实任务、真实数据和真实交付中检验。

模型能力的边界,就是评测集能力的边界

刘广文认为,评测集在AI时代的意义,远不止是给模型打分。大模型不会自动变好,而是会朝着被评测的方向进化。预训练用损失函数度量语言理解,RLHF用人类偏好做对齐,RLVR用可验证结果度量推理能力。换句话说,模型能力的边界,很大程度上取决于评测集能力的边界。

当前模型和Agent的发布节奏越来越快。上半年,中国第一梯队大模型新版发布26次,约每周一次;美国大模型约每10天一次。再加上OpenClaw、Hermes Agent等Agent产品持续更新,市场上充满了各种“颠覆”的声音。

但大量通用Benchmark(BHE)分数,并不能直接说明一个AI产品在投研场景里是否可用。自媒体跑几个case,也很难回答严肃金融机构真正关心的问题:数据是不是准?分析是不是有逻辑?报告能不能交付?工具调用能不能闭环?

刘广文提到,在研发内部,同样会出现类似争论,如果没有真实标尺,这些争论很难落到可衡量的结果上。

“如果你用的是一把弯曲的尺子,就只能制造弯曲的进步。”他说,iRaB要做的,就是为AI投研能力锻造一把真实、动态、不可替代的标尺。

用户平时干什么,我们就评什么

刘广文介绍,iRaB的设计有五个核心特点。

第一是真实场景。iRaB的任务来自讯兔科技旗下AI投研产品Alpha(ALP)派真实用户的一线投研工作流。用户平时做什么,评测就评什么;用户反馈什么、关注什么,评价标准就围绕什么建立。

第二是双题型。投研任务既有定量问题,也有逻辑思辨和开放分析问题。不同问题会根据业务性质,自动匹配不同评测侧重点。

第三是Forward-Test动态答案。iRaB不只是用静态标准答案考模型,而是以未来发生的真实市场结果作为答案依据。这样可以减少题库污染和刷分空间,要求模型和Agent依靠真实推理能力得分。

第四是双向评测。iRaB不只评大模型本身聪不聪明,也评Agent能不能干活,能不能拆解任务,能不能调用工具并完成交付。对于投研场景来说,回答问题只是开始,把事情做完才是关键。

第五是全自动测试和动态榜单。iRaB不是一次性论文式发布,而是一套持续更新的自动测试系统和动态榜单。它既是讯兔科技产品迭代的指南针(300803),也希望为用户选择AI投研产品提供参考。

此次iRaB由讯兔科技联合上海交通大学、复旦大学共同研究,并经来自国泰海通(HK2611)证券非银&金融科技团队、中信建投(601066)计算机团队、天风证券(601162)计算机团队、国金证券(600109)计算机&科技团队、华创证券金融团队、光大证券(HK6178)资产配置团队等机构研究团队参与研发、评测并定稿。发布会上,讯兔科技同步发布了技术报告、数据集、评测标准、自动测试系统与排行榜。

刘广文表示,AI现在仍处在非常早期的阶段。工业时代有很多可量化指标,但今天行业还没有找到一个足够准确的方式去衡量金融AI的能力。iRaB只是第一步,后续还需要持续迭代。

iRaB要评的不是局部,而是全流程能力

方诗涛在介绍评测集构建方法时表示,投研场景的本质,是把事实加工成决策。过去一些金融Benchmark(BHE)更多评测投研链条中的局部能力,iRaB要衡量的,则是从事实提取、推理分析到任务交付的全流程能力。

举例来说,iRaB不再只是衡量AI能不能查到某一资产今年的涨跌幅,而是要看它能不能结合利率环境、美联储加息降息预期、其他资产表现等因素,出具一份完整报告。

从真实用户反馈中,iRaB提取出三类核心评测维度:一是数据的真实性,看数据是否准确、及时、权威,最终交付中是否存在失真或自相矛盾;二是推理和洞察,看分析是否有深度,是否能形成完整因果链,而不是简单复述已有材料;三是交付与表达,看结果是否真正覆盖用户需求,图表、工具调用和任务执行是否合理。

由于投研场景对时间敏感,行情、事件和市场环境都在变化,静态的问题集和答案很快会失去意义。因此,iRaB采用动态测试集设计:不仅答案会随着新信息更新,题目本身也会根据市场环境变化进行调整。这样既能贴近真实投研场景,也能降低题库污染和针对性刷分的风险。

在评分方法上,iRaB引入LLM-as-a-Judge,让大模型参与评判,但不是让模型直接给一个主观分数,而是通过流程化评测和专家校准,让每一步评分尽量有依据、可复核,减少主观漂移。

最终分数也不会只看报告写得是否漂亮。iRaB会更重视数据真实、分析质量和任务交付之间的匹配关系,避免那些形式完整、但事实基础有问题的报告获得高分。

方诗涛还用SpaceX(SPCX)产业链调研案例作了说明。用户希望Agent调研SpaceX(SPCX)产业链,重点分析细分赛道的供需格局、价值量和壁垒。Agent虽然输出了一份看起来完整、图表漂亮的报告,但由于数据准确性、内部一致性和需求覆盖都存在问题,最终只得到较低评分。

这个案例说明,在真实投研场景中,AI报告不能只看是否漂亮、是否完整。数据是否准确,前后是否一致,是否真正覆盖用户问题,才是决定Agent能不能交付的关键。

垂类任务依然需要垂类Agent框架

张宏哲在模型和Agent横评中介绍,iRaB对多款主流模型进行了测试。从结果看,海外前沿模型整体仍然处在领先位置,国产大模型紧随其后,并在部分能力维度上展现出优势。

例如,GPT 5.5在数据质量上表现较好,DeepSeek V4 Pro在部分数据维度上有优势,MiniMax M3在内容覆盖度上表现突出。这也意味着,未来模型组合可能会成为AI投研产品的重要方向。

除了模型横评,iRaB也做了Harness横评。在接入一致数据工具的情况下,PaiWork、Codex、Hermes Agent、Claude Code、OpenClaw等框架被放在同一套投研任务中比较。结果显示,PaiWork在该Benchmark(BHE)中取得了较明显的优势。

张宏哲认为,这个结果说明,通用Agent框架并不能自动解决所有专业任务;对于投研这样的垂直场景,仍然需要垂域知识、垂域Skills和垂域工作流,才能更好释放大模型能力。

张宏哲还提到一个有意思的现象:在市场上另一个较受关注的Finance Agent评测中,某海外模型曾长期排名靠前;但在 iRaB 的真实投研环境中,它的表现相对靠后。

团队分析后发现,该模型的问题主要在于复杂数据使用能力不足。它更擅长从web search或报告中提取现成数据,但iRaB的任务更接近真实投研环境,数据来源更加复杂、多元,也更需要模型进行校验、整合和推理。

当任务从提取答案变成完成研究,模型和Agent的真实差异就会被放大。这也是iRaB强调真实场景的原因。只有模拟真实投研环境、真实用户行为和真实任务链条,评测结果才可能真正帮助用户判断:哪些模型和AI框架更符合投研需求。

没有评测,创新只是争论

刘广文表示,iRaB对讯兔科技来说,是产品迭代的指南针(300803);对用户来说,是选择AI产品的参考;对行业来说,则希望推动大家形成统一标准,而不是各说各话。

张宏哲也提到,未来iRaB会继续扩充数据集,纳入更多新模型,也会引入更多专家和从业人员参与评测体系校准。团队希望让更多专业人士参与进来,帮助判断Benchmark(BHE) 是否合理,是否存在偏差,是否真正反映投研任务的标准。

AI投研的竞争,最终不会停留在谁能生成更长的报告,谁能跑出更高的通用Benchmark(BHE) 分数,而会回到真实任务里:数据准不准,逻辑通不通,工具调用是否合理,交付结果是否可用。

没有评测,创新只是争论;有了标尺,文明才会加速。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME