数据仓库Snowflake论文

数据仓库和数据库的区别就是：

数据库：OLTP，数据操作会包含读写，并且要求时延较低，操作结果会是决定上层操作成功与否的关键。数据量一般有限。
数据仓库或数据湖：OLAP，数据操作以读为主，极少update操作，对时延不是很敏感，一般查询比较复杂并且数据量大。

大数据场景下，Hadoop或Spark是社区比较活跃的解决方案，但是snowflake认为，它们并不高效，并且系统的维护和使用成本也很高。

分布式存储存储经典的两种架构：

shared-disk：数据存储到相同位置，大家用同样的资源，Oracal Exadata，延展性和并发性不行。
shared-nothing：近年来的主流做法，系统通过策略将资源分摊到多个结点，每个节点之间的数据不共享，但是实现上可能会用来保存其他节点的高可用副本数据，对于高并发或者大量的查询工作负载会分发到各个节点进行执行，所以延展性和并发性不受限制。

但是snowflake的架构图如下，在Shared-nothing基础上提出的Multi-Cluster, Shared Data Architecture，完全实现了计算存储分离。

1.架构的最上层是服务化组件，包括查询优化器、元数据存储、鉴权、资源管理和事务管理等。

查询优化器：实现查询的管理和优化，将对应的查询计划分发Virtual Warehouse中特定的计算节点，为了提高cache效率和性能，优化器会对其中的节点进行类似一致性hash的管理。
事务管理：采用SI和MVCC进行的并发控制，整体的存储思想类似于LSM，数据不会原地修改，数据只能读取修改后整块写入，历史版本可以保留，SI的实现也是基于MVCC来实现的。

2.中间是计算层Virtual Warehouse

本质就是vm计算资源，多个vm虚拟机资源加速本地的磁盘做cache就构成了逻辑上的一个虚拟的warehouse，其中做了cache命中率优化和类似的文件p2p分发，减轻存储层访问压力，提升性能。

最下层是存储层

3.存储层

存储层使用的云上的对象存储，aws的s3，azure的blob和google的cloud storage。对象存储系统的接口很简单，基本上都是GET/DELETE/PUT三种，s3支持部分数据获取。snowflake数据chunk的存储也是采用range-based来存储，元数据依赖cloud service保存。

数据的安全性完全交给底层的对象存储，计算层不需要关心数据高可用和水平扩展能力。

snowflake提供了Pure-saas用户体验，与传统的DBaas相比，用户完全不用关心数据库高可用、数据库调优等。

论文中还对snowflake是如何对数据进行加密来保证数据安全性的做了大量工作，在我看来，还是比较吃惊的，他们对数据的安全性做了这么复杂的设计，而不仅仅是一个固定的密钥进行加密。其中包括key rotation、rekeying，并且传输的过程也实现端到端加密。