Lakehouse

Delta Sharing:跨平台安全数据共享的开放协议(Trial)

以开放协议在多云与本地间共享“在线数据”,集中治理与审计,避免复制;但须管控跨云外网成本。

Brief

Delta Sharing 是一个用于安全、跨平台数据共享的开放标准与协议,由 Databricks 与 Linux 基金会共同推动。它与云平台无关,使组织能够在不同云供应商与本地环境之间共享“在线数据”,无需拷贝或复制,从而保持数据新鲜度并消除重复成本。我们曾看到某电商公司用 Delta Sharing 将割裂的伙伴数据共享系统替换为集中化、实时且安全的平台,显著提升了协作。该协议通过简单的 REST API 下发短期有效的预签名 URL,接收方可用 pandas、Spark 或 Power BI 等工具拉取大规模数据集。它支持共享数据表、视图、AI 模型与笔记本。尽管它提供强大的集中治理与审计能力,用户仍需注意云外网(egress)费用;若缺乏管理,这类成本可能成为显著的运营风险。

来源:技术雷达

Details

背景与现状

为什么现在要谈

  • 多云与跨组织协作增多,复制式数据分发带来时效性下降、版本漂移与高存储/运维成本。
  • 合规与可审计要求上升,点对点管道难以统一治理与撤销访问。

典型适用场景

  • 与外部伙伴、子公司、区域团队共享近实时数据。
  • 多云/跨账体系下的统一数据出口,避免专有平台锁定。
  • BI/数据科学工具直接消费共享数据,无需额外落地副本。

模式与原理

架构与角色

  • Provider 发布 Share(表/视图/模型/笔记本),Recipient 通过客户端读取。
  • 以简单 REST API 发放短期预签名 URL,按需直读对象存储数据文件。
  • 治理与审计集中在目录/权限层,实现可撤销、可追踪访问。

访问机制与生态

  • 客户端:pandas、Spark、Power BI 等常见分析工具直接拉取。
  • 实质是“零复制共享”:计算在接收方,存储留在提供方,减少数据流转链路。

能力边界与注意

  • 读通路为主,写入通常不开放;细粒度控制常通过视图实现行/列裁剪。
  • 性能受网络与对象存储布局影响;跨区域/跨云引发 egress 成本。

对比与演进

相对复制式共享(ETL/文件投递)

  • 优势:单一事实源、近实时、集中治理、撤销敏捷。
  • 代价:网络带宽与 egress 成本外显;对目录治理与Schema稳定性要求更高。

相对专有数据共享产品

  • 优势:开放协议与多工具互通,降低平台绑定。
  • 局限:生态成熟度与高级特性可能不如深度集成的专有方案。

相对查询联邦/虚拟化

  • 优势:简化跨源查询路径与权限整合,减少跨系统优化耦合。
  • 局限:主要面向数据分发消费,不替代复杂的跨源联邦优化。

系统影响

架构一致性

  • 将“数据出口”标准化,减少私建管道与影子副本,稳定数据血缘与SLA。
  • 数据契约化:通过视图与Schema版本约束管理外部可见接口。

工程与治理

  • 统一审计、密钥轮换与访问撤销,便于合规核查。
  • 需要数据分级、脱敏与最小权限策略;对外共享界面尽量以视图抽象。

成本与性能

  • 主要成本从存储转向网络;需按区域/伙伴制定限额与预算。
  • 建议就近部署、缓存冷热分层、批量化读取以优化吞吐与费用。

问题与风险

主要风险

  • Egress 成本不可控、跨区域传输拉高费用。
  • 架构泄露与过度暴露:视图/元数据不当暴露造成侧信道风险。
  • Schema 演进破坏兼容性,导致接收方作业失败。
  • 客户端异构导致行为差异与支持边界不一致。

根因与结构性矛盾

  • “零复制共享”的便捷与“网络/合规成本”的增长存在张力。
  • 统一治理需要强约束,而业务协作追求灵活,需用视图与契约折中。

落地建议

适用边界

  • 倾向采用:多云/多组织共享、对近实时有要求、复制成本高的场景。
  • 谨慎采用:跨洲跨区域高频大流量、Schema 变动频繁、无法落实目录治理。

试点路径(小步快跑)

  1. 选2–3张高价值、稳定Schema的表,以视图对外暴露。
  2. 定义对外接口契约:列级/行级裁剪、数据新鲜度与可用性SLO。
  3. 建立访问审计与成本监控(按消费方/区域/数据集维度)。
  4. 设限与熔断:带宽/请求速率/总费用阈值与自动告警。
  5. 演练撤销与轮换:密钥、共享撤销、回滚预案。
  6. 扩面到模型/笔记本等资产,统一在目录层治理。

实施要点

  • 用视图实现脱敏与行列级策略;敏感数据默认不出域。
  • 版本化Schema:兼容演进,提供弃用周期与变更公告。
  • 就近策略:优先同区域共享,必要时部署边缘缓存/落地中转。

观测与SLO

  • 关键指标:数据新鲜度、端到端读取延迟、成功率、单位消费成本(GB/消费方)、撤销生效时间。
  • 周期性审计:共享清单、最小权限偏差、异常访问与成本尖峰。

Copyright © 2024 Lionad - CC-BY-NC-CD-4.0