大成研究

AI能力工程发展及投研实践（只備有中文版）

2026-06

24

一、 模型能力的发展情况：能力工程角度

关于底层模型的演进，市场上的报告已经很多。结合投研实践，我认为理解模型能力工程的发展历史，能更好理解未来Tokens持续增长的逻辑，也更有利于研究员安排投研实践。

我理解能力工程指的是大模型的工作架构如何升级，使得我们看到的模型如何从Chatbot，演绎成具有各种能力，能完成多种需求的中间态（比如Claude Code），到未来交付即服务的最终体（OpenClaw是交付即服务的初级阶段）。其中比较关键的概念包括MCP、Agent、Skills等。

模型工程能力的演进历史如下：

2022年10 月，ReAct 论文上线。它提出把 reasoning traces 和 actions 交替生成，也就是模型不只是“想出答案”，而是“观察环境、想下一步、执行动作、再根据反馈继续推理”。Agent工作流形态初见。

2023 年 6 月 13 日，OpenAI 发布 function calling，该功能可以将自然语言转换为 API 调用或数据库查询。

自此，模型拥有了调用外部数据/工具来提升回答准确度的能力。用户输入问题后，调用外部数据再反馈，就是可以提升回答问题精确度的Agent思路。

图：OpenAI Function Calling功能

资料来源：OpenAI，截至2026年2月28日

2024年11月25日，Anthropic开源了MCP。2025年5月21日，OpenAI正式增加了对MCP的支持，MCP成为标准化的开源标准。

MCP (Model Context Protocol)用于连接 AI 应用程序到外部系统。使用 MCP，像 Claude 或 ChatGPT 这样的 AI 应用程序可以连接到数据源（例如本地文件、数据库）、工具（例如搜索引擎、计算器）和工作流程（例如专业提示），从而能够访问关键信息并执行任务。

简单来讲，MCP就像五官和四肢，有了MCP，模型可以用统一的接口调用接收外部数据、向外部反馈和传递动作（如发邮件、设置提醒、自动发小红书）。

图：MCP是模型和外部的桥梁

资料来源：Anthropic，截至2026年2月28日

2024年12月19日，Anthropic正式明确Agent的方法论。Anthropic认为，Agent是系统，其中 LLMs 动态地指导自己的进程和工具使用，保持对如何完成任务的控制。Agent的目标：一旦任务明确，智能体将独立计划和操作，可能返回人类以获取更多信息或判断。在执行过程中，智能体在每一步从环境中获取“真实情况”（例如工具调用结果或代码执行）以评估其进度至关重要。智能体可以在检查点或遇到障碍时暂停以获取人类反馈。任务通常在完成后终止。

简单来讲，Agent的终极目标就是交付即服务。

2025年4月，GPT-4.1使上下文窗口能达到1m Tokens，显著增强了模型处理大型代码库、长文档、复杂任务历史和多步工作记忆

2025年5月，Claude code正式发布；10月，OpenAI的Codex正式发布。这两个产品作为原生的Agentic产品，先革命了Coding的工作流。此前，Copilot做代码补全和debug；之后，这些产品直接接管全部的代码系统，从补写代码debug变成了参与整个软件交付流程。研究员认为，在此之后，所有的程序员都变成了产品经理，不用再进行手搓代码工作。然后Agent产品从Coding领域像全行业渗透。

Agent发展成熟后，Skill概念也逐渐兴起。2025年10月，Anthropic将Skill作为产品能力发布。12月，Anthropic把Skill功能开源并标准化，随后OpenAI也把开源格式当作公开标准。

Skill是可重用、基于文件系统的资源，为模型提供特定领域的专业知识：工作流程、上下文和最佳实践，将通用代理转化为专家。与用于一次性任务的对话级指令（提示）不同，技能按需加载，并消除了在多个对话中重复提供相同指导的需要。

简单来讲，Skill是用自然语言写的方法论，用于让Agent做特定任务时，通过可复用的SOP（标准作业流程），来提升Agent处理实际问题的能力。大部分Skill都是开源的，小部分被封装在软件里付费使用（但我觉得这是中间态，最终Skill也会是开源的天下）。

图：Skill的文件结构

资料来源：Anthropic，截至2026年2月28日

Anthropic官方开源的Skill不多，主要包括操控Office软件、skill-creator（如何让用户创造新的Skill）、Canvas-design、mcp-builder等等，都是一些针对高度可复用的场景做的skill。

Skill兴起进一步完善了模型能力后，我们看到了龙虾的兴起，这其实是Agent走向大众化的关键一步：如果用户接触不到Claude Code/Codex这种未完全封装的Agent产品，OpenClaw其实是封装最好、上手最快的具有Agent能力的开源产品（安装免费、模型API调用收费），通过聊天软件调用。如果此前未用过Claude code等Agent，从对话框跃升到Agent时代，模型解决问题的能力一定有阶梯式的进步，因此出圈。

最后讲一下国产模型：Claude Code不是必须用Anthropic的Claude模型。从Claude Code发出的API请求可以被劫持，然后通过各种方法（如OpenRouter）可以把API请求转移给国产模型服务器，从而用便宜的国产模型，使用Claude Code的Agent封装能力，以及其他诸如系统提示词、工具调用格式等增强模型的能力。也就是说，大量国产模型的请求不来自于对话框或2C产品，而是这种Agent级的调用，做Claude/GPT的平替。

在目前Agent时代，模型解决问题的能力不只取决于底层模型能力，还包括：

- Agent如何安排上下文和记忆层。长上下文很容易出现幻觉，通过特定的记忆安排，或者Subagent可以解决这种问题。

- 工具使用：模型能调用什么工具对结果至关重要。

- 执行与编排：Agent能不能把任务拆开、并行、重试、回滚、记录轨迹。

Agent的各种能力和底层模型并不完全相关，也就是只要底层模型不弱，Agent架构好（比如把难的任务拆成简单的任务，或者让国产模型通过Subagent的方式承担如搜集信息这样的简单任务），非SOTA模型也能交付较好的结果。而且Agent这种不断循环做任务的方式需要消耗极大的tokens，这也是国产模型能够生存且发展的根本原因。

二、 金融投研实践

观点：Skill既然是一套工作流，那其实就不存在严格的“标准化”，也不用对开源的Skill过于依赖。尤其是投研工作，人人均可自己生成Skill，来总结自己的投研方法论，让Agent来执行。从投研工作的角度理解，AI能够带来多少赋能在于两点：1）数据（还包括调研的一手信息）；2）研究——观点生成——决策的方法论是否有效。如果说1）数据不足以称为壁垒，2）研究方法论还是千人千面的。也就是说，研究员必须要建立从事实中洞见观点的能力，而且其胜率必须大于开源的方法论Skill。

实践角度，分享一下Anthropic开源的financial-services技能库（https://github.com/anthropics/financial-services-plugins）。其包含了equity-research、financial-analysis、investment-banking等7个子技能包，内部又分别包含了若干Skill。比如equity-research里包含了earnings-analysis、initiating-coverage这些。使用单个技能就可以一次交互生成对应的文件。

图：Anthropic financial-services技能库

资料来源：Anthropic，截至2026年2月28日

Initiating-coverage是如何工作？Initiating-coverage是一个5阶段流水线式Skill，用于生成机构级股票研究首次覆盖报告。它是目前Claude Code生态中最复杂的Skill之一（784行），展示了Skill系统的设计上限。

图：Initiating-coverage Skill架构图

资料来源：Anthropic，截至2026年2月28日

这个Skill内部有五个步骤，每个步骤分别有特定的产出目标，供下一个步骤使用，最后形成完整的研究报告。

图：Initiating-coverage Skill每个Task的产出

资料来源：Anthropic，截至2026年2月28日

具体每一步是怎么做的？其实和我们写投研报告的思路是一样的，只不过Anthropic把流程给固定化了，并没有什么复杂的地方。下文贴了Task-1 公司研究的详细工作流情况：

任务 1：公司研究 - 详细工作流

本文档为执行“启动覆盖（initiating-coverage）”技能中的**任务 1（公司研究）**提供分步说明。

任务概览

目的：研究公司的业务、管理层、竞争地位、行业和风险。 先决条件：✅ 无（完全独立）输入：仅需公司名称或股票代码产出：公司研究文档（6,000-8,000 字）

需收集的数据源

1. 第一手资料（公司层面）

SEC 备案文件（针对上市公司）：

最新 10-K：业务描述、风险因素、管理层讨论与分析（MD&A）、财务数据
近期 10-Q：季度更新
DEF 14A（代理委托书）：高管薪酬、董事会组成
8-K：重大事件、收购、管理层变动

公司官网与投资者关系（IR）：

投资者演示文稿（Investor presentations）
业绩电话会议纪要（过去 2-3 个季度）
新闻稿
产品文档

针对私营公司：

公司官网及博客
新闻报道与媒体覆盖
LinkedIn（用于管理层履历）
Crunchbase 或 PitchBook（用于融资历史）

2. 第二手资料（行业/竞争层面）

竞争对手官网及 SEC 备案文件
行业研究报告（Gartner, Forrester, IDC 等）
新闻文章与行业出版物
市场调研报告
关键高管的 LinkedIn 档案

需提取的关键信息

公司成立日期、总部、员工人数
营收规模与增长轨迹（若可用）
产品组合与定价
客户细分与案例研究
管理层背景与过往业绩
竞争格局与市场份额
行业趋势与增长驱动力
监管考量
高水平财务指标（来自 10-K 文字描述，非详细数据提取）

分步研究工作流

第 1 步：初步数据采集

从公司官网开始：阅读“关于/公司”页面；审查产品页面；识别客户案例研究；记录提及的关键指标（员工、客户等）。
收集 SEC 备案文件（若上市）：从 SEC EDGAR 下载最新 10-K、最近 10-Q 和最新 DEF 14A；记录备案日期。
阅读业绩材料：获取最新业绩电话会议纪要、最近的投资者演示文稿、过去 12 个月的新闻稿。
记录基本事实：成立日期与故事、总部地点、员工人数、产品/服务、关键客户。

第 2 步：业务模式分析

绘制营收流图：公司卖什么？如何定价（订阅、交易、许可等）？谁付费？典型交易规模是多少？
了解客户细分：大型企业 vs. 中小企业 vs. 消费者；服务的行业；地理分布；客户集中度（前 10 大客户）。
记录进入市场（GTM）策略：直销 vs. 渠道合作伙伴；销售周期长度；客户获取策略；分销模式。
识别单位经济效益：LTV/CAC（若可用）；毛利率；净收入留存率（NRR）；回收期。

第 3 步：管理层研究

（针对 3-4 名核心高管：CEO、CFO 为必选，外加 2 名 C-suite 高管）

识别关键领导者。
研究每位高管：查找 LinkedIn 档案；查阅 DEF 14A 获取背景信息；搜索媒体采访；记录在职年限。
撰写 300-400 字履历：当前职责；过往职位与公司（近 2-3 个）；主要成就与业绩；教育背景与资历；行业经验年限；在当前公司的时间。
评估治理情况：董事会组成与独立性；关键董事背景；内部人持股比例；高管薪酬结构。

第 4 步：竞争情报

识别 5-10 家竞争对手：直接对手、间接对手（替代方案）、新兴对手（颠覆者）；查看 10-K 中公司自行列出的对手名单。
研究每个对手：访问官网；查阅其 SEC 文件；记录关键产品与定位。
识别差异化因素：估算市场份额；创建竞争框架（基于价格、功能、规模等维度）；识别公司的竞争优势与劣势。
记录竞争见解：谁是市场领导者？该公司排名如何？独特的差异化点是什么？竞争威胁有哪些？

第 5 步：行业分析

定义行业：行业分类（NAICS/SIC）；范围与边界；相关/相邻行业。
测算市场规模：TAM（总可寻址市场）、SAM（可服务可寻址市场）、SOM（可获得服务市场）；当前渗透率。
研究增长驱动力：历史市场增长率；未来 3-5 年预测增长率；加速/减缓增长的关键趋势；影响行业的工艺/技术变化。
了解行业结构：分散 vs. 集中；准入门槛；供应商/买方议价能力；替代品威胁；监管环境。

第 6 步：风险评估

（识别 4 个类别下的 8-12 项风险，每项 50-100 字描述）

公司特定风险（4-6 项）：执行风险、客户集中度、关键人物依赖、产品/技术过时、地理集中度、整合风险。
行业/市场风险（3-4 项）：竞争强度、监管变化、技术颠覆、市场饱和。
财务风险（2-3 项）：盈利时间表、融资需求、债务水平与契约、现金烧钱率。
宏观经济风险（2-3 项）：经济敏感性（周期性 vs. 防御性）、利率敏感性、外汇风险、地缘政治因素。

要求：描述清晰，尽可能量化影响，注明可能性/严重性，识别缓解因素。

第 7 步：综合与撰写

按照以下结构撰写文档：

公司概览 (800-1,200 字)：业务简介（白话描述）、盈利模式、运营地域、规模（营收、员工、客户）、关键指标。
公司历史 (800-1,200 字)：创立故事、重大里程碑时间轴、战略转型、关键收购、近期动态。
管理团队 (1,000-1,400 字)：每人 300-400 字履历、董事会与治理、内部持股、过往业绩评估。
产品与服务 (700-1,000 字)：详细产品组合、关键功能、差异化、目标客户、定价模型。
客户与市场进入 (500-700 字)：客户画像、分销渠道、销售策略、关键合作伙伴、案例研究。
行业概览 (800-1,200 字)：定义与范围、市场规模与结构、增长率、关键趋势、监管环境。
竞争格局 (700-1,000 字)：5-10 家对手分析、定位框架、竞争优势/劣势、份额分析。
市场机遇 (TAM) (500-700 字)：TAM 测算方法论、增长预测、公司可服务市场、渗透策略。
风险评估 (600-900 字)：四个类别的详细风险描述。
数据来源部分：列出所有来源、日期和 URL，按类型组织。

质量标准

内容深度：各部分必须达到字数目标；分析应具有实质性（非描述性）；使用具体示例和定量数据；全文标注引用；保持客观平衡。
管理层履历：3-4 名高管，每人 300-400 字；必须包含当前职责、过往经验、主要成就、教育背景。
竞争分析：必须分析 5-10 家具体对手；包含直接与间接对手；评估相对定位；识别竞争优势。
风险评估：涵盖 4 个类别的 8-12 项独特风险；每项 50-100 字；尽可能量化影响。
写作质量：专业、分析性的语气；核心见解先行；避免笼统陈述。

输出格式

COMPANY RESEARCH REPORT: [公司名称] 日期：[日期] 分析师：[姓名]

公司概览
公司历史
管理团队
产品与服务
客户与市场进入
行业概览
竞争格局
市场机遇 (TAM)
风险评估

====================================== （正文各章节...）

数据来源 [按日期和 URL 列出所有来源]

成功标准

一份成功的任务 1 交付物应：

达到 6,000-8,000 字目标（核实字数）。
包含全部 9 个必选章节。
提供实质性分析而非简单描述。
通过数据和示例使读者理解：公司做什么、如何赚钱、管理层质量、竞争地位、市场规模以及关键风险。

后续步骤

完成任务 1 后，该研究文档将用于：

作为独立的公司分析报告。
作为**任务 2（财务建模）**的输入，提供业务背景。
作为**任务 4（图表生成）**的输入，提供公司/竞争数据。
作为**任务 5（报告汇编）**的基础，其内容将被逐字复制到最终报告中。

上一條游戏行业复盘与展望（只備有中文版） 2026.06.24 下一條全球宏观经济与市场10月回顾（只備有中文版） 2025.11.01

列表

進入本網站，即代表您同意遵守以下條款及細則。

如果您不同意這些條款，切勿進入本網站。

大成國際資産管理有限公司（以下簡稱“大成國際”）是在香港受證券及期貨事務監察委員會(下稱「證監會」) 規管的機構。本網站提供有關大成國際及其服務與產品的資料。本網站所載的資訊如在若干司法管轄區內是需要註冊後才可發表，並大成國際沒有意圖在該等司法管轄內發表本文件。非香港投資者在瀏覽本網站所載資訊前，有責任遵守其所屬司法管轄區內所有適用的法例及規定。如您繼續瀏覽本網站所載的任何資訊，即表示已閱讀下列資料、明白下述的條款及細則並受其約束。

本網站由大成國際提供，未經證監會審閱。務請您審慎行事。倘若您對本網站的資料有任何疑問，應諮詢獨立財務及專業顧問的意見。私人投資者應諮詢其投資顧問、銀行或其他專業顧問的意見。本網站所載的資料並不構成投資建議或關於任何投資或投資服務可行性的意見。有意投資人士請於作出投資決定前，諮詢專業顧問的意見。

本網站提供的資料只供參考用途，並不構成任何投資建議。過往表現未必可作日後業績的準則。投資涉及風險。投資者可能會失去全部投資資本，請詳閱相關的銷售文件，尤其是有關基金的性質及投資該基金涉及的風險。

本網站所載的資料並不構成任何邀約、邀請、建議或認購任何大成國際提供的產品、大成國際的基金、或作為任何投資建議的準則。

本網站可能載有根據大成國際的意見、預期及推測所作出的前瞻性陳述。大成國際並無責任更新或修訂任何前瞻性陳述，而實際結果可能與前瞻性陳述所預期的有重大差異。

假如您是透過另一網站的連結接入瀏覽本網站，大成國際不會對該等網站所提供的資訊的準確性，承擔任何法律或其他責任。

大成國際不會對您或其他任何人士的電腦系統或其儲存的記錄，因使用本網站或任何連結網站，而做成的影響或破壞負上任何責任。本網站使用Cookies。Cookies允許您的瀏覽器檢查您是否已經閱讀及同意我們的條款。Cookies不包含任何個人身份證明的資料。假如您的瀏覽器被設定為拒絕Cookies的檢查，您將不能瀏覽本網站。本網站的所載內容（包括所有資料、圖片、電腦編碼、文字、標誌及設計）的所有版權，均屬大成國際所有。在未經大成國際同意下，不得複製或另作派發本網站所提供的資訊。本條款受香港法例管限及構成您與大成國際就使用本網站的全部協議。

本網站內容將經常更新而恕不另行通知。

同意拒絕

大成研究

大成研究

AI能力工程发展及投研实践（只備有中文版）

2026-06

24

基金產品

機構業務

關於大成

進入本網站，即代表您同意遵守以下條款及細則。

如果您不同意這些條款，切勿進入本網站。