为AI投研能力锻造一把真实标尺——讯兔科技重磅发布iRaB投研实战评测体系

2026年6月，讯兔科技在金融AI生态论坛暨PaiWork+发布会上，发布iRaB（Investment Research Agent Benchmark（BHE））投研实战评测体系。会上，讯兔科技首席科学家刘广文、算法科学家方诗涛，以及香港中文大学（深圳）经管学院、上海交通大学信息技术（300469）创新系张宏哲，分别从评测动机、构建方法和横评结果三个角度，介绍了这套面向AI投研场景的评测体系。

在大模型和Agent快速迭代的背景下，金融AI行业并不缺新模型、新产品和新案例，真正稀缺的是一把能衡量真实投研能力的尺子。iRaB的目标，是把AI投研能力从自说自话的产品宣传、零散case和通用Benchmark（BHE）中拉出来，放到真实任务、真实数据和真实交付中检验。

模型能力的边界，就是评测集能力的边界

刘广文认为，评测集在AI时代的意义，远不止是给模型打分。大模型不会自动变好，而是会朝着被评测的方向进化。预训练用损失函数度量语言理解，RLHF用人类偏好做对齐，RLVR用可验证结果度量推理能力。换句话说，模型能力的边界，很大程度上取决于评测集能力的边界。

当前模型和Agent的发布节奏越来越快。上半年，中国第一梯队大模型新版发布26次，约每周一次；美国大模型约每10天一次。再加上OpenClaw、Hermes Agent等Agent产品持续更新，市场上充满了各种“颠覆”的声音。

但大量通用Benchmark（BHE）分数，并不能直接说明一个AI产品在投研场景里是否可用。自媒体跑几个case，也很难回答严肃金融机构真正关心的问题：数据是不是准？分析是不是有逻辑？报告能不能交付？工具调用能不能闭环？

刘广文提到，在研发内部，同样会出现类似争论，如果没有真实标尺，这些争论很难落到可衡量的结果上。

“如果你用的是一把弯曲的尺子，就只能制造弯曲的进步。”他说，iRaB要做的，就是为AI投研能力锻造一把真实、动态、不可替代的标尺。

用户平时干什么，我们就评什么

刘广文介绍，iRaB的设计有五个核心特点。

第一是真实场景。iRaB的任务来自讯兔科技旗下AI投研产品Alpha（ALP）派真实用户的一线投研工作流。用户平时做什么，评测就评什么；用户反馈什么、关注什么，评价标准就围绕什么建立。

第二是双题型。投研任务既有定量问题，也有逻辑思辨和开放分析问题。不同问题会根据业务性质，自动匹配不同评测侧重点。

第三是Forward-Test动态答案。iRaB不只是用静态标准答案考模型，而是以未来发生的真实市场结果作为答案依据。这样可以减少题库污染和刷分空间，要求模型和Agent依靠真实推理能力得分。

第四是双向评测。iRaB不只评大模型本身聪不聪明，也评Agent能不能干活，能不能拆解任务，能不能调用工具并完成交付。对于投研场景来说，回答问题只是开始，把事情做完才是关键。

第五是全自动测试和动态榜单。iRaB不是一次性论文式发布，而是一套持续更新的自动测试系统和动态榜单。它既是讯兔科技产品迭代的指南针（300803），也希望为用户选择AI投研产品提供参考。

此次iRaB由讯兔科技联合上海交通大学、复旦大学共同研究，并经来自国泰海通（HK2611）证券非银&金融科技团队、中信建投（601066）计算机团队、天风证券（601162）计算机团队、国金证券（600109）计算机&科技团队、华创证券金融团队、光大证券（HK6178）资产配置团队等机构研究团队参与研发、评测并定稿。发布会上，讯兔科技同步发布了技术报告、数据集、评测标准、自动测试系统与排行榜。

刘广文表示，AI现在仍处在非常早期的阶段。工业时代有很多可量化指标，但今天行业还没有找到一个足够准确的方式去衡量金融AI的能力。iRaB只是第一步，后续还需要持续迭代。

iRaB要评的不是局部，而是全流程能力

方诗涛在介绍评测集构建方法时表示，投研场景的本质，是把事实加工成决策。过去一些金融Benchmark（BHE）更多评测投研链条中的局部能力，iRaB要衡量的，则是从事实提取、推理分析到任务交付的全流程能力。

举例来说，iRaB不再只是衡量AI能不能查到某一资产今年的涨跌幅，而是要看它能不能结合利率环境、美联储加息降息预期、其他资产表现等因素，出具一份完整报告。

从真实用户反馈中，iRaB提取出三类核心评测维度：一是数据的真实性，看数据是否准确、及时、权威，最终交付中是否存在失真或自相矛盾；二是推理和洞察，看分析是否有深度，是否能形成完整因果链，而不是简单复述已有材料；三是交付与表达，看结果是否真正覆盖用户需求，图表、工具调用和任务执行是否合理。

由于投研场景对时间敏感，行情、事件和市场环境都在变化，静态的问题集和答案很快会失去意义。因此，iRaB采用动态测试集设计：不仅答案会随着新信息更新，题目本身也会根据市场环境变化进行调整。这样既能贴近真实投研场景，也能降低题库污染和针对性刷分的风险。

在评分方法上，iRaB引入LLM-as-a-Judge，让大模型参与评判，但不是让模型直接给一个主观分数，而是通过流程化评测和专家校准，让每一步评分尽量有依据、可复核，减少主观漂移。

最终分数也不会只看报告写得是否漂亮。iRaB会更重视数据真实、分析质量和任务交付之间的匹配关系，避免那些形式完整、但事实基础有问题的报告获得高分。

方诗涛还用SpaceX（SPCX）产业链调研案例作了说明。用户希望Agent调研SpaceX（SPCX）产业链，重点分析细分赛道的供需格局、价值量和壁垒。Agent虽然输出了一份看起来完整、图表漂亮的报告，但由于数据准确性、内部一致性和需求覆盖都存在问题，最终只得到较低评分。

这个案例说明，在真实投研场景中，AI报告不能只看是否漂亮、是否完整。数据是否准确，前后是否一致，是否真正覆盖用户问题，才是决定Agent能不能交付的关键。

垂类任务依然需要垂类Agent框架

张宏哲在模型和Agent横评中介绍，iRaB对多款主流模型进行了测试。从结果看，海外前沿模型整体仍然处在领先位置，国产大模型紧随其后，并在部分能力维度上展现出优势。

例如，GPT 5.5在数据质量上表现较好，DeepSeek V4 Pro在部分数据维度上有优势，MiniMax M3在内容覆盖度上表现突出。这也意味着，未来模型组合可能会成为AI投研产品的重要方向。

除了模型横评，iRaB也做了Harness横评。在接入一致数据工具的情况下，PaiWork、Codex、Hermes Agent、Claude Code、OpenClaw等框架被放在同一套投研任务中比较。结果显示，PaiWork在该Benchmark（BHE）中取得了较明显的优势。

张宏哲认为，这个结果说明，通用Agent框架并不能自动解决所有专业任务；对于投研这样的垂直场景，仍然需要垂域知识、垂域Skills和垂域工作流，才能更好释放大模型能力。

张宏哲还提到一个有意思的现象：在市场上另一个较受关注的Finance Agent评测中，某海外模型曾长期排名靠前；但在 iRaB 的真实投研环境中，它的表现相对靠后。

团队分析后发现，该模型的问题主要在于复杂数据使用能力不足。它更擅长从web search或报告中提取现成数据，但iRaB的任务更接近真实投研环境，数据来源更加复杂、多元，也更需要模型进行校验、整合和推理。

当任务从提取答案变成完成研究，模型和Agent的真实差异就会被放大。这也是iRaB强调真实场景的原因。只有模拟真实投研环境、真实用户行为和真实任务链条，评测结果才可能真正帮助用户判断：哪些模型和AI框架更符合投研需求。

没有评测，创新只是争论

刘广文表示，iRaB对讯兔科技来说，是产品迭代的指南针（300803）；对用户来说，是选择AI产品的参考；对行业来说，则希望推动大家形成统一标准，而不是各说各话。

张宏哲也提到，未来iRaB会继续扩充数据集，纳入更多新模型，也会引入更多专家和从业人员参与评测体系校准。团队希望让更多专业人士参与进来，帮助判断Benchmark（BHE）是否合理，是否存在偏差，是否真正反映投研任务的标准。

AI投研的竞争，最终不会停留在谁能生成更长的报告，谁能跑出更高的通用Benchmark（BHE）分数，而会回到真实任务里：数据准不准，逻辑通不通，工具调用是否合理，交付结果是否可用。

没有评测，创新只是争论；有了标尺，文明才会加速。