安全 · 隐私 · 合规
HKFilings 的数据安全与合规承诺
港股研究涉及大量未公开 / NDA-bound 信息。这一页是 HKFilings 在数据隔离、清理、私有化部署、模型训练边界与合规对接的完整说明。
数据生命周期
从 PDF 上传到永久清理
- 接收:PDF 上传走 HTTPS(TLS 1.3),存入 Cloudflare R2 桶(区域:APAC)。SHA-256 校验防止重复上传双扣额度。
- 解析:Python pipeline 用 PyMuPDF + pdfplumber 解析,中间产物(文本 + 表格 + bbox)暂存到 D1 数据库。
- 抽取:LLM 调用商用 API(DeepSeek / OpenAI / Anthropic),请求 / 响应不进入我方训练集。
- 持久化:结构化事实写入 D1(永久 · 用户主动删除时清理);PDF 原文件 7 天后自动清理。
- 清理审计:删除事件写审计日志,Pro 及以上用户可通过
GET /v1/audit/pdf-deletions查询。
部署形态
托管 vs 私有化
托管多租户(Free / Pro)
- 工作空间级隔离:D1 行级 RLS(Row-Level Security),R2 对象路径前缀按 workspace_id 划分
- 所有跨租户 API 调用经 Worker 鉴权拦截,越权访问返回 403 + 审计日志
- Cloudflare 边缘网络 DDoS 防护 + WAF 默认开启
私有化部署(Enterprise)
- 组件清单:Worker 兼容层 + Python pipeline + LLM 端点替换 + PostgreSQL(替换 D1)+ MinIO 或自有对象存储(替换 R2)
- 网络隔离:所有组件部署在你方内网,不出网;LLM 端点可指向 Azure OpenAI / 自建 vLLM / 自有 DeepSeek 推理服务
- 交付物:Docker images + Helm Chart + 部署文档 + 远程升级支持
- RBAC + SSO:SAML 2.0 / OIDC 对接你方 IdP(Okta / Azure AD / Ping / 自建)
承诺
训练集与第三方
我们承诺不会用你方上传的 PDF / 抽取出的结构化事实训练我方模型。LLM 抽取使用商用 API:
- OpenAI / Azure OpenAI:API 流量默认不进入模型训练(OpenAI 2023-03 后默认承诺)
- Anthropic Claude:API 默认不训练(Claude API ToS)
- DeepSeek:商用 API 模式不训练;Enterprise 可指定 LLM 端点
若你的合规策略要求 LLM 完全在自有网络内运行,Enterprise 可配置自建 vLLM / SGLang 推理服务,所有 prompt / response 完全在你方内网。
第三方处理者
数据流向哪些供应商
| 服务商 | 用途 | 所在地 |
|---|---|---|
| Cloudflare | 边缘网络 + R2 对象存储 + D1 数据库 + Workers | 美国 / 全球 CDN,数据存储 APAC |
| Stripe | 订阅支付 | 美国 / 香港 / 新加坡 |
| DeepSeek / OpenAI / Anthropic | LLM 抽取调用 | 取决于供应商;Enterprise 可指定自建端点 |
| HKEXnews | 港股年报 PDF 公开源 | 香港 |
常见问题
安全相关
PDF 解析完真的 7 天删除吗 — 有审计日志吗?
PDF 原文件在解析完成后第 7 天由定时任务从 R2 桶清理。删除事件写入审计日志,Pro 及以上用户可查询。Enterprise 私有化部署完全在你方控制。
上传含非公开信息(NDA-bound)的 PDF 安全吗?
Free / Pro 不建议上传 NDA-bound 文件(多租户环境)。Enterprise 私有化部署所有 PDF 与中间产物在你方网络内,可用自有 LLM 端点替换商用 API。
你们是否会把任何用户数据卖给第三方?
不会。我们的商业模式是订阅 + Enterprise license,没有数据广告 / 数据转售业务线。
私有化部署 Enterprise 版到底「私有」到哪一步?
Docker / K8s / 裸金属可选。所有组件部署在你方网络。我方仅提供镜像 + 部署文档 + 远程支持。
报告安全问题
如果你发现 HKFilings 的安全漏洞,请通过 [email protected] 联系。承诺 24h 内回复,72h 内初步评估。