详解 Web3 数据经济:LSD 之后的下一个千亿级赛道
作者:Yuxing, SevenX Ventures
本文仅供交流学习,不构成任何投资建议。
云数据仓库(如 Snowflake 等)正在迅速增长,主要关注 SQL 用户和商业智能用户场景。其他技术的采用也在加速,数据湖(如 Databricks)的客户增长速度前所未有,数据技术栈中的异质性将共存。
来源:a16z
随着数据生态的飞速发展,出现了“数据平台”的概念。从行业的角度看,平台的定义特征是有影响力的平台提供方和大量的第三方开发者能够在技术上和经济上相互依存。从平台的角度看,数据技术栈分为“前端”和“后端”。
“前端”工程师利用这种单点集成来构建一系列新应用程序。他们依赖数据仓库/湖仓一体中清洗和整合过的数据,而不用担心它们是如何生成的底层细节。单个客户可以在一个核心数据系统之上构建和购买很多应用。 我们甚至开始看到传统企业系统,如财务或者产品分析,正在使用仓库原生的架构进行重构。
然而,这些技术栈的形成是在以大公司为主导的数据利用方式下形成的。随着社会对于数据的理解加深,人们认为数据与土地、劳动力、资本、技术一样, 都是可市场化配置的生产要素 。数据作为五大生产要素之一,其背后体现的正是数据的资产价值。
受 a16z 统一的数据基础设施架构(2.0)的启发,融合对 Web3 基础设施架构的理解,我们提出了以下 Web3 混合数据基础设施架构。
传统的数据基础设施架构是根据企业业务发展演变而来的。a16z 将其总结为两个系统(分析系统和业务系统)和三个场景(现代商业智能、多模型数据处理以及人工智能和机器学习)。这是从企业的视角——数据为企业的发展服务——作出的总结。
当数据开始进行产权界定、流动交易、收益分配和治理时,它们的系统和场景就不仅仅是赋能企业自身的决策和业务发展。这些系统和场景要么需要借助区块链技术,要么强烈依赖**监管。
在 Web3 语境下,数据利用的新范式包括承载流动数据要素的市场系统和管理公共数据要素的公共系统。它们涵盖了三个新的数据业务场景:产权数据开发整合、可组合初始数据层和公共数据挖掘。
数据经济市场是配置数据要素的关键,其包括产品数据的开发和整合和具备可组合性的初始数据层市场。在高效合规的数据经济市场中, 以下几点十分重要 :
以上原则是监管部门考虑数据经济的基本原则。在产权数据开发整合、可组合初始数据层和公共数据挖掘三种场景下,可以以这些原则为基础进行思考。我们需要怎样的基础设施作为支撑?这些基础设施能够在哪些阶段捕获什么样的价值?
注:橙色是 Web2 与 Web3 交叉的单元
个人数据要求数据处理者按照个人授权范围依法依规采集、持有、托管和使用数据。使用创新技术手段,推动个人信息匿名化处理,保障使用个人信息数据时的信息安全和个人隐私。探索由受托者代表个人利益,监督市场主体对个人信息数据进行采集、加工、使用的机制。对涉及国家安全的特殊个人信息数据,可依法依规授权有关单位使用。
注:橙色是 Web2 与 Web3 交叉的单元
搭建在这些数据模式管理工具之上的是可组合初始数据层,通常称为“data layer”,如 Cyberconnect、KNN3 等。
可组合的初始数据是新时代创新的关键场景,也是数据霸权与数据垄断终结的重要标志。它 能够解决 初创企业在数据方面的冷启动问题,组合成熟数据集和新数据集,从而使初创企业能够更快地建立数据竞争优势。同时让初创企业专注于增量数据价值和数据新鲜度,从而为自身的创新想法赢得持续的竞争力。这样,大量的数据将不会成为大公司的护城河。
注:橙色是多类别交叉的单元
传统的公共数据包括党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据。监管机构鼓励在保护个人隐私和确保公共安全的前提下,按照“原始数据不出域、数据可用不可见”的要求,以模型、核验等产品和服务等形式向社会提供该类数据。它们采用的是传统技术栈(蓝色和部分橙色,橙色代表多个类型技术栈交叉,下同)。
而在去中心化存储上的数据则大多是除交易以外的 Web3 应用数据,目前主要是以文件和对象存储为主,相应的技术栈仍不成熟(绿色和部分橙色)。这类公共数据的生产和挖掘利用存储的普遍问题包括冷热存储、索引、状态同步、权限管理和计算等等。
案例:数据交易所
Ocean Protocol (2亿市值)是一个开源的协议,旨在让企业和个人能够交换和变现数据和基于数据的服务。该协议基于以太坊区块链,使用“数据代币”(datatokens)来控制对数据集的访问。数据代币是一种特殊的 ERC20 代币,可代表一个数据集或一个数据服务的所有权或使用权。用户可以通过购买或赚取数据通证来获取所需的信息。
来源:Ocean Protocol
来源:Ocean Protocol
开源、灵活和可扩展的协议有助于组织和个人创建自己独特的数据生态系统。
开放、透明和公平的数据市场,可以连接全球范围内的提供者和消费者,并提供多种类型和领域的数据通证。
来源:Ocean Protocol
案例:数据模型市场
关于数据模型,一个简单的例子是,在去中心化社交网络当中,数据模型可以简化为 4 个参数,分别是:
那么数据模型如何在 Ceramic 上进行创建、共享和重用,从而实现跨应用程序数据互操作性呢?
添加到注册表的所有数据模型都会自动发布到 @datamodels 的 npm 插件包下面。任何开发人员都可以使用 @datamodels/model-name 安装一个或多个数据模型,使这些模型可用于在运行时使用任何 IDX 客户端存储或检索数据,包括 DID DataStore 或 Self.ID。
案例:去中心化数据仓库
Space and Time 是两层网络,由验证器层和数据仓库组成。SxT 平台的成功取决于验证器和数据仓库的无缝交互,以促进对链上和链下数据的简单和安全查询。
Validator 监视、命令和验证这些集群提供的服务,然后编排最终用户和数据仓库集群之间的数据流和查询。Validator 为数据进入系统(例如区块链索引)和数据退出系统(例如智能合约)提供了一种手段。
Space and Time 作为一个平台是世界上第一个分散的数据结构,它开启了一个强大但服务不足的市场:数据共享。在 Space and Time 平台内,公司可以自由共享数据,并且可以使用智能合约对共享的数据进行交易。此外,数据集可以通过SQL 证明以聚合方式货币化,而无需让消费者访问原始数据。数据消费者可以相信聚合是准确的,而无需看到数据本身,因此数据提供者不再必须是数据消费者。正是出于这个原因,SQL 证明和数据结构架构的结合有可能使数据操作民主化,因为任何人都可以在摄取、转换和服务数据集方面做出贡献。
目前,Web3 数据基础设施架构中缺乏一个实用且高效的数据治理架构。然而,一个实用且高效的数据治理基础设施对于配置各参与方相关权益的数据要素至关重要。
目前 Web3 数据治理能力单一,往往只能通过控制私钥来控制资产和数据(包括 Ceramic),分级分类配置能力几乎没有。最近,Tableland、FEVM 以及 Greenfield 的创新机制,在一定程度上可以实现数据的去信任化治理。传统的数据治理工具如 Collibra 一般只能用于企业内部,只具备平台级的信任,同时非去中心化的技术也使得其无法防止个人作恶及单点故障。通过 Tableland 等数据治理工具,可以保障数据流通过程所需的安全保障技术、标准和方案。
案例:Tableland
Tableland 提供了一种新方法,使 dapp 能够将关系数据存储在 web3-native 网络中,而无需进行这些权衡。
使用 Tableland,元数据可以变更(如果需要,使用访问控制)、查询(使用熟悉的 SQL)和可组合(与 Tableland 上的其他表)——所有这些都以完全去中心化的方式进行。
只有具有适当链上权限的人才能写入特定表。但是,表读取不一定是链上操作,可以使用 Tableland 网关;因此,读取查询是免费的,可以来自简单的前端请求,甚至可以来自其他非 EVM 区块链。现在,为了使用 Tableland,必须首先创建一个表(即,作为 ERC721 在链上铸造)。部署地址最初设置为表所有者,并且此所有者可以为任何其他尝试与表交互进行变更的用户设置权限。例如,所有者可以设置规则,谁可以更新/插入/删除值,他们可以更改哪些数据,甚至决定他们是否愿意转让所有权表的另一方。此外,更复杂的查询可以连接来自多个表(拥有或非拥有)的数据,以创建一个完全动态且可组合的关系数据层。
以下是整体信息流:
2. dapp 调用 Tableland 注册智能合约来运行这个 SQL 语句,并且这个合约检查 dapp 的智能合约,其中包含定义这个新用户的权限的自定义 ACL。有几点需要注意:
3. Tableland 智能合约获取该用户的 SQL 语句和权限,并将这些合并到发出的事件中,这些事件描述了要采取的基于 SQL 的操作。
5. dapp 将能够通过网关反映 Tableland 网络上发生的任何更新。
不同单元在整个数据基础设施架构当中都有不可替代的作用,价值其价值捕获主要体现在市值/估值以及预估收益上,可以获得以下结论:
简单的来说,在整个结构图的左边的公司/项目,其价值捕获倾向于更大。
据不完全的统计分析,行业集中度有以下判断:
数据源、分析和输出行业集中度较低,初步判断是不同的业务场景导致在每个业务场景中都能够有垂直场景的龙头出现,如数据库领域的 Oracle、第三方服务的 Stripe、企业服务的 Salesforce、仪表盘分析的 Tableau 以及嵌入式分析的 Sisense 等等。
行业集中度最高的数据存储以及数据查询和处理模块,初步判断是由于业务场景单一、技术含量高、启动成本高且后续切换具有较大成本,使得公司/项目的先发优势较强,且具备网络效应。
从成立时间和上市来看,
而分析输出类项目,不论在哪个时期都是创业项目的机会。但也是在不断迭代创新,基于新的场景做新的事情,2010年以前出现的 Tableau 占据了桌面式仪表盘分析工具的大部分江山,随后出现的新型场景有如更加专业导向的 DS/ML 工具、更加综合导向的数据工作站以及更加 SaaS 导向的嵌入式分析等等。
但 Web3 不是 Web2 的翻版,也不完全是 Web2 的进化。Web3 有非常原生的使命和场景,从而诞生了和以前完全不一样业务场景(前面三种场景是目前能够作出来的全部的抽象)。
声明:本站所有内容,如无特殊说明或标注,均为采集网络资源,任何内容均不构成投资建议。