问题描述
假设您必须处理有关模式调用的信息,稍后应该 显示给用户。模式调用是由唯一整数组成的元组 标识符(“id”)、用户定义的名称(“name”)、项目相对路径 称为模式文件(“patternFile”)和一个便利标志,它说明是否 应该调用或不调用该模式。并且元组的数量之前是未知的,初始化后不会被修改。
我认为在这种情况下,基于列的方法和大查询在 I/O 和性能以及架构的演变方面会更好。但实际上我不明白为什么。我将不胜感激。
解决方法
Amazon S3 就像一个大型键值存储。 Key
是文件名(带完整路径),Value
是文件的内容。这只是一堆数据。
列式数据存储以可以“跳转到”特定数据的方式组织数据,并且只需要从磁盘读取所需的值。
如果您要对数据执行搜索,则需要对数据进行某种形式的逻辑。这可以通过将数据存储在数据库中(通常是专有格式)或使用列式存储格式(例如 Parquet 和 ORC)以及理解这种格式的查询引擎(例如 Amazon Athena)来实现。
S3 和列式数据存储之间的区别就像磁盘驱动器和 Oracle 数据库之间的区别。