HKFilings
登录
安全 · 隐私 · 合规

HKFilings 的数据安全与合规承诺

港股研究涉及大量未公开 / NDA-bound 信息。这一页是 HKFilings 在数据隔离、清理、私有化部署、模型训练边界与合规对接的完整说明。

数据生命周期

从 PDF 上传到永久清理

  1. 接收:PDF 上传走 HTTPS(TLS 1.3),存入 Cloudflare R2 桶(区域:APAC)。SHA-256 校验防止重复上传双扣额度。
  2. 解析:Python pipeline 用 PyMuPDF + pdfplumber 解析,中间产物(文本 + 表格 + bbox)暂存到 D1 数据库。
  3. 抽取:LLM 调用商用 API(DeepSeek / OpenAI / Anthropic),请求 / 响应不进入我方训练集。
  4. 持久化:结构化事实写入 D1(永久 · 用户主动删除时清理);PDF 原文件 7 天后自动清理。
  5. 清理审计:删除事件写审计日志,Pro 及以上用户可通过 GET /v1/audit/pdf-deletions 查询。
部署形态

托管 vs 私有化

托管多租户(Free / Pro)

  • 工作空间级隔离:D1 行级 RLS(Row-Level Security),R2 对象路径前缀按 workspace_id 划分
  • 所有跨租户 API 调用经 Worker 鉴权拦截,越权访问返回 403 + 审计日志
  • Cloudflare 边缘网络 DDoS 防护 + WAF 默认开启

私有化部署(Enterprise)

  • 组件清单:Worker 兼容层 + Python pipeline + LLM 端点替换 + PostgreSQL(替换 D1)+ MinIO 或自有对象存储(替换 R2)
  • 网络隔离:所有组件部署在你方内网,不出网;LLM 端点可指向 Azure OpenAI / 自建 vLLM / 自有 DeepSeek 推理服务
  • 交付物:Docker images + Helm Chart + 部署文档 + 远程升级支持
  • RBAC + SSO:SAML 2.0 / OIDC 对接你方 IdP(Okta / Azure AD / Ping / 自建)
承诺

训练集与第三方

我们承诺不会用你方上传的 PDF / 抽取出的结构化事实训练我方模型。LLM 抽取使用商用 API:

  • OpenAI / Azure OpenAI:API 流量默认不进入模型训练(OpenAI 2023-03 后默认承诺)
  • Anthropic Claude:API 默认不训练(Claude API ToS)
  • DeepSeek:商用 API 模式不训练;Enterprise 可指定 LLM 端点

若你的合规策略要求 LLM 完全在自有网络内运行,Enterprise 可配置自建 vLLM / SGLang 推理服务,所有 prompt / response 完全在你方内网。

第三方处理者

数据流向哪些供应商

服务商用途所在地
Cloudflare边缘网络 + R2 对象存储 + D1 数据库 + Workers美国 / 全球 CDN,数据存储 APAC
Stripe订阅支付美国 / 香港 / 新加坡
DeepSeek / OpenAI / AnthropicLLM 抽取调用取决于供应商;Enterprise 可指定自建端点
HKEXnews港股年报 PDF 公开源香港
常见问题

安全相关

PDF 解析完真的 7 天删除吗 — 有审计日志吗?

PDF 原文件在解析完成后第 7 天由定时任务从 R2 桶清理。删除事件写入审计日志,Pro 及以上用户可查询。Enterprise 私有化部署完全在你方控制。

上传含非公开信息(NDA-bound)的 PDF 安全吗?

Free / Pro 不建议上传 NDA-bound 文件(多租户环境)。Enterprise 私有化部署所有 PDF 与中间产物在你方网络内,可用自有 LLM 端点替换商用 API。

你们是否会把任何用户数据卖给第三方?

不会。我们的商业模式是订阅 + Enterprise license,没有数据广告 / 数据转售业务线。

私有化部署 Enterprise 版到底「私有」到哪一步?

Docker / K8s / 裸金属可选。所有组件部署在你方网络。我方仅提供镜像 + 部署文档 + 远程支持。

报告安全问题

如果你发现 HKFilings 的安全漏洞,请通过 [email protected] 联系。承诺 24h 内回复,72h 内初步评估。