做港股研究的人都知道,年报里 200 多页 PDF 里那几十个关键数字才是真的有用 —— 但提取它们的方式可以差出一个数量级的工作量。
本文对比当前主流的三种港股年报数字提取方法:
- 方法一:手抄到 Excel
- 方法二:用 Wind / 同花顺 / Bloomberg 终端的二次分发
- 方法三:用 HKFilings 这样的自动抽取工具
每种方法都有它适合的场景。我们按 4 个维度逐一拆解:可追溯性、成本、规模化、可维护性。
方法一:手抄到 Excel
最古老、也最准确的方法。打开 PDF,找到合并财务报表,逐行抄到 Excel 模板里。一份港股年报通常 200-400 页,需要找的是:
- 综合损益表(收入、毛利、经营利润、归母净利润 等 ~12 行)
- 财务状况表(总资产、各类流动 / 非流动资产、负债、权益 等 ~30 行)
- 现金流量表(经营 / 投资 / 筹资三大活动 + 各自细项 ~25 行)
- 分部信息附注(按业务 / 地理拆分,互联网公司常 7+ 分部)
- 关键 KPI(如友邦的 VONB / EV,互联网的 GMV / Take Rate)
优点
- 100% 可追溯:你自己抄的,自然知道每个数字在第几页
- 会计口径完全清晰:边抄边读附注,对披露背景理解最深
- 无任何工具成本:Excel 够用
缺点
- 耗时极高:一份港股年报熟练分析师 4-8 小时,新人 12-16 小时
- 易出错:千 / 百万 / 亿单位混排、繁简英术语切换、人手抄错率 1-3%
- 难规模化:要追踪 30 家公司的最近 4 期数据 = 120 份报告 × 6 小时 = 720 工时
- 跨期可比性差:一旦披露口径变更(如阿里 2024 年新增分部),需要回溯调整历史数据
适合:评估 1-2 家公司的深度研究,新分析师培训,或确认终端数据存疑时的人工复核。
方法二:Wind / 同花顺 / Bloomberg 终端
大多数机构研究员的默认选择。每月 / 每年支付订阅费,从终端的「财务报表」模块直接拿表格化数据。
优点
- 快:拉一家公司近 5 年三表 = 几分钟
- 覆盖广:不止港股,A 股 / 美股 / 欧股全市场
- 结合行业 + 宏观 + 资讯:在同一个终端解决多个研究需求
缺点
- 口径不透明:终端给「成品数字」,但对披露口径变更(restated、剥离、并购)的追溯调整经常未披露
- 不可点回原文:终端的数字背后没有源页定位,遇到怀疑只能自己去翻 PDF 复核(又回到方法一)
- 非标准 KPI 缺失:互联网公司的「调整后 EBITA」、保险公司的「VONB Margin」终端常不及时收录
- API 价格昂贵:Wind API 数万 RMB / 年,Bloomberg API 数十万美元 / 年;批量喂模型 / Agent 不友好
- 授权限制:终端数据不允许重新分发,无法直接入自己的数据库或建研究底稿
适合:以宏观 + 二级市场报价 + 卖方研报为主的综合性投研团队;不需要源页可追溯的快速对比;预算充足的大机构。
方法三:HKFilings 这样的自动抽取工具
把港股年报 PDF 直接作为输入,自动解析 + 抽取 + 校验,输出结构化财务事实。每个数字附 source_page + bbox,可点回 PDF 原文位置。
HKFilings 怎么做的
- 下载:HKEXnews 公告 PDF(按 ticker + 年度自动拉,或上传本地 PDF)
- 解析:PyMuPDF + pdfplumber 提取文本 + 表格 + bbox
- 双通道抽取:规则匹配(三表核心指标)+ LLM 抽取(非标披露 / 行业 KPI)
- 校验:10 条会计 / 同比 / 单位一致性规则自动跑(资产 = 负债 + 权益 等)
- 持久化:结构化事实写入数据库,附 schema 版本签名
- 复核:失败字段进入复核队列,分析师点击 = 跳转源页 + 高亮数字
优点
- 速度 ≈ 方法二 + 准确性 ≈ 方法一:3-8 分钟拿一份完整结构化结果
- 源页可追溯:每个数字都能反查到 PDF 第几行 + bbox 高亮位置
- 会计口径透明:10 条结构化校验规则全部公开,校验失败自动入复核
- 规模化便宜:Pro 每月 200 份 ¥499 ≈ 12 个分析师工时(按港股研究团队人力成本估算)
- API 友好:v1 REST + Python SDK + 冻结 JSON Schema,可直接喂模型 / Agent
- 数据归你:JSON / CSV / MD / Excel 全格式无水印导出,可入自己数据库
缺点 / 局限
- 当前覆盖 50 家头部港股(持续扩展中)—— 非头部小盘 / 复杂结构需要等 golden set 扩
- 不做宏观 + 二级市场报价 + 卖方研报(不是综合终端)
- ≥ 95% fact-level 命中率意味着 ~5% 字段需要复核 —— 不是 100% 自动
适合:聚焦港股深度研究的卖方分析师 / 买方研究员、小型私募 / 家办自建数据库、AI 投研 / 量化团队需要稳定 API。
4 维对比表
| 维度 | 手抄 | Wind / 同花顺 | HKFilings |
|---|---|---|---|
| 可追溯性 | ★★★★★ | ★★ | ★★★★★ |
| 速度 / 份报告 | ★(4-8 小时) | ★★★★★(分钟) | ★★★★(3-8 分钟) |
| 边际成本 | ★(高时间成本) | ★★★(订阅) | ★★★★(订阅) |
| 规模化 (30+ 公司) | ★ | ★★★★ | ★★★★★ |
| API 友好性 | — | ★★(贵) | ★★★★★(标准 REST) |
| 数据所有权 | ★★★★★(你抄的) | ★(授权限制) | ★★★★★(你导出的) |
| 会计口径透明度 | ★★★★★ | ★★ | ★★★★★(10 条公开校验) |
什么时候用哪种?
- 1-2 家公司的深度研究:手抄。慢但理解最透。
- 跨市场 + 综合研究(宏观 + 港股 + A 股 + 资讯):终端。覆盖广。
- 纯港股深度研究 / 自建数据库 / API 喂模型:HKFilings。源页可追溯 + 规模化便宜。
- 混合用:实际上是终端 + HKFilings 的组合最常见 —— 终端拿宏观 + 资讯,HKFilings 拿可追溯的港股财务事实。
下一步
想试试 HKFilings?免费 5 份报告,覆盖 50 家头部港股。或者看 完整抽取流程 / 定价 / API 文档。