一、 模型能力的发展情况:能力工程角度
关于底层模型的演进,市场上的报告已经很多。结合投研实践,我认为理解模型能力工程的发展历史,能更好理解未来Tokens持续增长的逻辑,也更有利于研究员安排投研实践。
我理解能力工程指的是大模型的工作架构如何升级,使得我们看到的模型如何从Chatbot,演绎成具有各种能力,能完成多种需求的中间态(比如Claude Code),到未来交付即服务的最终体(OpenClaw是交付即服务的初级阶段)。其中比较关键的概念包括MCP、Agent、Skills等。
模型工程能力的演进历史如下:
2022年10 月,ReAct 论文上线。它提出把 reasoning traces 和 actions 交替生成,也就是模型不只是“想出答案”,而是“观察环境、想下一步、执行动作、再根据反馈继续推理”。Agent工作流形态初见。
2023 年 6 月 13 日,OpenAI 发布 function calling,该功能可以将自然语言转换为 API 调用或数据库查询。
自此,模型拥有了调用外部数据/工具来提升回答准确度的能力。用户输入问题后,调用外部数据再反馈,就是可以提升回答问题精确度的Agent思路。
图:OpenAI Function Calling功能 |
|
资料来源:OpenAI,截至2026年2月28日 |
2024年11月25日,Anthropic开源了MCP。2025年5月21日,OpenAI正式增加了对MCP的支持,MCP成为标准化的开源标准。
MCP (Model Context Protocol)用于连接 AI 应用程序到外部系统。使用 MCP,像 Claude 或 ChatGPT 这样的 AI 应用程序可以连接到数据源(例如本地文件、数据库)、工具(例如搜索引擎、计算器)和工作流程(例如专业提示),从而能够访问关键信息并执行任务。
简单来讲,MCP就像五官和四肢,有了MCP,模型可以用统一的接口调用接收外部数据、向外部反馈和传递动作(如发邮件、设置提醒、自动发小红书)。
图:MCP是模型和外部的桥梁 |
|
资料来源:Anthropic,截至2026年2月28日 |
2024年12月19日,Anthropic正式明确Agent的方法论。Anthropic认为,Agent是系统,其中 LLMs 动态地指导自己的进程和工具使用,保持对如何完成任务的控制。Agent的目标:一旦任务明确,智能体将独立计划和操作,可能返回人类以获取更多信息或判断。在执行过程中,智能体在每一步从环境中获取“真实情况”(例如工具调用结果或代码执行)以评估其进度至关重要。智能体可以在检查点或遇到障碍时暂停以获取人类反馈。任务通常在完成后终止。
简单来讲,Agent的终极目标就是交付即服务。
2025年4月,GPT-4.1使上下文窗口能达到1m Tokens,显著增强了模型处理大型代码库、长文档、复杂任务历史和多步工作记忆
2025年5月,Claude code正式发布;10月,OpenAI的Codex正式发布。这两个产品作为原生的Agentic产品,先革命了Coding的工作流。此前,Copilot做代码补全和debug;之后,这些产品直接接管全部的代码系统,从补写代码debug变成了参与整个软件交付流程。研究员认为,在此之后,所有的程序员都变成了产品经理,不用再进行手搓代码工作。然后Agent产品从Coding领域像全行业渗透。
Agent发展成熟后,Skill概念也逐渐兴起。2025年10月,Anthropic将Skill作为产品能力发布。12月,Anthropic把Skill功能开源并标准化,随后OpenAI也把开源格式当作公开标准。
Skill是可重用、基于文件系统的资源,为模型提供特定领域的专业知识:工作流程、上下文和最佳实践,将通用代理转化为专家。与用于一次性任务的对话级指令(提示)不同,技能按需加载,并消除了在多个对话中重复提供相同指导的需要。
简单来讲,Skill是用自然语言写的方法论,用于让Agent做特定任务时,通过可复用的SOP(标准作业流程),来提升Agent处理实际问题的能力。大部分Skill都是开源的,小部分被封装在软件里付费使用(但我觉得这是中间态,最终Skill也会是开源的天下)。
图:Skill的文件结构 |
|
资料来源:Anthropic,截至2026年2月28日 |
Anthropic官方开源的Skill不多,主要包括操控Office软件、skill-creator(如何让用户创造新的Skill)、Canvas-design、mcp-builder等等,都是一些针对高度可复用的场景做的skill。
Skill兴起进一步完善了模型能力后,我们看到了龙虾的兴起,这其实是Agent走向大众化的关键一步:如果用户接触不到Claude Code/Codex这种未完全封装的Agent产品,OpenClaw其实是封装最好、上手最快的具有Agent能力的开源产品(安装免费、模型API调用收费),通过聊天软件调用。如果此前未用过Claude code等Agent,从对话框跃升到Agent时代,模型解决问题的能力一定有阶梯式的进步,因此出圈。
最后讲一下国产模型:Claude Code不是必须用Anthropic的Claude模型。从Claude Code发出的API请求可以被劫持,然后通过各种方法(如OpenRouter)可以把API请求转移给国产模型服务器,从而用便宜的国产模型,使用Claude Code的Agent封装能力,以及其他诸如系统提示词、工具调用格式等增强模型的能力。也就是说,大量国产模型的请求不来自于对话框或2C产品,而是这种Agent级的调用,做Claude/GPT的平替。
在目前Agent时代,模型解决问题的能力不只取决于底层模型能力,还包括:
- Agent如何安排上下文和记忆层。长上下文很容易出现幻觉,通过特定的记忆安排,或者Subagent可以解决这种问题。
- 工具使用:模型能调用什么工具对结果至关重要。
- 执行与编排:Agent能不能把任务拆开、并行、重试、回滚、记录轨迹。
Agent的各种能力和底层模型并不完全相关,也就是只要底层模型不弱,Agent架构好(比如把难的任务拆成简单的任务,或者让国产模型通过Subagent的方式承担如搜集信息这样的简单任务),非SOTA模型也能交付较好的结果。而且Agent这种不断循环做任务的方式需要消耗极大的tokens,这也是国产模型能够生存且发展的根本原因。
二、 金融投研实践
观点:Skill既然是一套工作流,那其实就不存在严格的“标准化”,也不用对开源的Skill过于依赖。尤其是投研工作,人人均可自己生成Skill,来总结自己的投研方法论,让Agent来执行。从投研工作的角度理解,AI能够带来多少赋能在于两点:1)数据(还包括调研的一手信息);2)研究——观点生成——决策的方法论是否有效。如果说1)数据不足以称为壁垒,2)研究方法论还是千人千面的。也就是说,研究员必须要建立从事实中洞见观点的能力,而且其胜率必须大于开源的方法论Skill。
实践角度,分享一下Anthropic开源的financial-services技能库(https://github.com/anthropics/financial-services-plugins)。其包含了equity-research、financial-analysis、investment-banking等7个子技能包,内部又分别包含了若干Skill。比如equity-research里包含了earnings-analysis、initiating-coverage这些。使用单个技能就可以一次交互生成对应的文件。
图:Anthropic financial-services技能库 |
|
资料来源:Anthropic,截至2026年2月28日 |
Initiating-coverage是如何工作?Initiating-coverage是一个5阶段流水线式Skill,用于生成机构级股票研究首次覆盖报告。它是目前Claude Code生态中最复杂的Skill之一(784行),展示了Skill系统的设计上限。
图:Initiating-coverage Skill架构图 |
|
资料来源:Anthropic,截至2026年2月28日 |
这个Skill内部有五个步骤,每个步骤分别有特定的产出目标,供下一个步骤使用,最后形成完整的研究报告。
图:Initiating-coverage Skill每个Task的产出 |
|
资料来源:Anthropic,截至2026年2月28日 |
具体每一步是怎么做的?其实和我们写投研报告的思路是一样的,只不过Anthropic把流程给固定化了,并没有什么复杂的地方。下文贴了Task-1 公司研究的详细工作流情况:
任务 1:公司研究 - 详细工作流
本文档为执行“启动覆盖(initiating-coverage)”技能中的**任务 1(公司研究)**提供分步说明。
任务概览
目的:研究公司的业务、管理层、竞争地位、行业和风险。 先决条件:✅ 无(完全独立) 输入:仅需公司名称或股票代码 产出:公司研究文档(6,000-8,000 字)
需收集的数据源
1. 第一手资料(公司层面)
- SEC 备案文件(针对上市公司):
- 最新 10-K:业务描述、风险因素、管理层讨论与分析(MD&A)、财务数据
- 近期 10-Q:季度更新
- DEF 14A(代理委托书):高管薪酬、董事会组成
- 8-K:重大事件、收购、管理层变动
- 公司官网与投资者关系(IR):
- 投资者演示文稿(Investor presentations)
- 业绩电话会议纪要(过去 2-3 个季度)
- 新闻稿
- 产品文档
- 针对私营公司:
- 公司官网及博客
- 新闻报道与媒体覆盖
- LinkedIn(用于管理层履历)
- Crunchbase 或 PitchBook(用于融资历史)
2. 第二手资料(行业/竞争层面)
- 竞争对手官网及 SEC 备案文件
- 行业研究报告(Gartner, Forrester, IDC 等)
- 新闻文章与行业出版物
- 市场调研报告
- 关键高管的 LinkedIn 档案
需提取的关键信息
- 公司成立日期、总部、员工人数
- 营收规模与增长轨迹(若可用)
- 产品组合与定价
- 客户细分与案例研究
- 管理层背景与过往业绩
- 竞争格局与市场份额
- 行业趋势与增长驱动力
- 监管考量
- 高水平财务指标(来自 10-K 文字描述,非详细数据提取)
分步研究工作流
第 1 步:初步数据采集
- 从公司官网开始:阅读“关于/公司”页面;审查产品页面;识别客户案例研究;记录提及的关键指标(员工、客户等)。
- 收集 SEC 备案文件(若上市):从 SEC EDGAR 下载最新 10-K、最近 10-Q 和最新 DEF 14A;记录备案日期。
- 阅读业绩材料:获取最新业绩电话会议纪要、最近的投资者演示文稿、过去 12 个月的新闻稿。
- 记录基本事实:成立日期与故事、总部地点、员工人数、产品/服务、关键客户。
第 2 步:业务模式分析
- 绘制营收流图:公司卖什么?如何定价(订阅、交易、许可等)?谁付费?典型交易规模是多少?
- 了解客户细分:大型企业 vs. 中小企业 vs. 消费者;服务的行业;地理分布;客户集中度(前 10 大客户)。
- 记录进入市场(GTM)策略:直销 vs. 渠道合作伙伴;销售周期长度;客户获取策略;分销模式。
- 识别单位经济效益:LTV/CAC(若可用);毛利率;净收入留存率(NRR);回收期。
第 3 步:管理层研究
(针对 3-4 名核心高管:CEO、CFO 为必选,外加 2 名 C-suite 高管)
- 识别关键领导者。
- 研究每位高管:查找 LinkedIn 档案;查阅 DEF 14A 获取背景信息;搜索媒体采访;记录在职年限。
- 撰写 300-400 字履历:当前职责;过往职位与公司(近 2-3 个);主要成就与业绩;教育背景与资历;行业经验年限;在当前公司的时间。
- 评估治理情况:董事会组成与独立性;关键董事背景;内部人持股比例;高管薪酬结构。
第 4 步:竞争情报
- 识别 5-10 家竞争对手:直接对手、间接对手(替代方案)、新兴对手(颠覆者);查看 10-K 中公司自行列出的对手名单。
- 研究每个对手:访问官网;查阅其 SEC 文件;记录关键产品与定位。
- 识别差异化因素:估算市场份额;创建竞争框架(基于价格、功能、规模等维度);识别公司的竞争优势与劣势。
- 记录竞争见解:谁是市场领导者?该公司排名如何?独特的差异化点是什么?竞争威胁有哪些?
第 5 步:行业分析
- 定义行业:行业分类(NAICS/SIC);范围与边界;相关/相邻行业。
- 测算市场规模:TAM(总可寻址市场)、SAM(可服务可寻址市场)、SOM(可获得服务市场);当前渗透率。
- 研究增长驱动力:历史市场增长率;未来 3-5 年预测增长率;加速/减缓增长的关键趋势;影响行业的工艺/技术变化。
- 了解行业结构:分散 vs. 集中;准入门槛;供应商/买方议价能力;替代品威胁;监管环境。
第 6 步:风险评估
(识别 4 个类别下的 8-12 项风险,每项 50-100 字描述)
- 公司特定风险(4-6 项):执行风险、客户集中度、关键人物依赖、产品/技术过时、地理集中度、整合风险。
- 行业/市场风险(3-4 项):竞争强度、监管变化、技术颠覆、市场饱和。
- 财务风险(2-3 项):盈利时间表、融资需求、债务水平与契约、现金烧钱率。
- 宏观经济风险(2-3 项):经济敏感性(周期性 vs. 防御性)、利率敏感性、外汇风险、地缘政治因素。
- 要求:描述清晰,尽可能量化影响,注明可能性/严重性,识别缓解因素。
第 7 步:综合与撰写
按照以下结构撰写文档:
- 公司概览 (800-1,200 字):业务简介(白话描述)、盈利模式、运营地域、规模(营收、员工、客户)、关键指标。
- 公司历史 (800-1,200 字):创立故事、重大里程碑时间轴、战略转型、关键收购、近期动态。
- 管理团队 (1,000-1,400 字):每人 300-400 字履历、董事会与治理、内部持股、过往业绩评估。
- 产品与服务 (700-1,000 字):详细产品组合、关键功能、差异化、目标客户、定价模型。
- 客户与市场进入 (500-700 字):客户画像、分销渠道、销售策略、关键合作伙伴、案例研究。
- 行业概览 (800-1,200 字):定义与范围、市场规模与结构、增长率、关键趋势、监管环境。
- 竞争格局 (700-1,000 字):5-10 家对手分析、定位框架、竞争优势/劣势、份额分析。
- 市场机遇 (TAM) (500-700 字):TAM 测算方法论、增长预测、公司可服务市场、渗透策略。
- 风险评估 (600-900 字):四个类别的详细风险描述。
- 数据来源部分:列出所有来源、日期和 URL,按类型组织。
质量标准
- 内容深度:各部分必须达到字数目标;分析应具有实质性(非描述性);使用具体示例和定量数据;全文标注引用;保持客观平衡。
- 管理层履历:3-4 名高管,每人 300-400 字;必须包含当前职责、过往经验、主要成就、教育背景。
- 竞争分析:必须分析 5-10 家具体对手;包含直接与间接对手;评估相对定位;识别竞争优势。
- 风险评估:涵盖 4 个类别的 8-12 项独特风险;每项 50-100 字;尽可能量化影响。
- 写作质量:专业、分析性的语气;核心见解先行;避免笼统陈述。
输出格式
COMPANY RESEARCH REPORT: [公司名称] 日期:[日期] 分析师:[姓名]
目录
- 公司概览
- 公司历史
- 管理团队
- 产品与服务
- 客户与市场进入
- 行业概览
- 竞争格局
- 市场机遇 (TAM)
- 风险评估
====================================== (正文各章节...)
数据来源 [按日期和 URL 列出所有来源]
成功标准
一份成功的任务 1 交付物应:
- 达到 6,000-8,000 字目标(核实字数)。
- 包含全部 9 个必选章节。
- 提供实质性分析而非简单描述。
- 通过数据和示例使读者理解:公司做什么、如何赚钱、管理层质量、竞争地位、市场规模以及关键风险。
后续步骤
完成任务 1 后,该研究文档将用于:
- 作为独立的公司分析报告。
- 作为**任务 2(财务建模)**的输入,提供业务背景。
- 作为**任务 4(图表生成)**的输入,提供公司/竞争数据。
- 作为**任务 5(报告汇编)**的基础,其内容将被逐字复制到最终报告中。