现代数据湖和数据湖仓库建立在现代对象存储之上。
这意味着它们建立在 MinIO 之上。
MinIO 为现代数据湖/数据湖仓库提供了一个统一的存储解决方案,可以在任何地方运行:私有云、公共云、
机房、裸机 - 甚至在边缘。它速度快、可扩展、云原生,并且可以随时使用 - 所有功能齐全。
现代数据湖是多引擎的,这些引擎(Spark、Flink、Trino、Arrow、Dask 等)都需要以某种方式绑定到一个有凝聚力的架构中。现代数据湖必须提供中央表存储、可移植的通勤、访问控制和持久结构。这就是像 Iceberg、Hudi 和 Delta Lake 这样的格式发挥作用的地方。它们是为现代数据湖而设计的,并且它们都受到 MinIO 的支持。我们可能对哪个胜出有自己的看法(您可以随时询问我们……),但我们致力于支持它们,直到它们不再有意义(参见 Docker Swarm 和 Mesosphere)。
MinIO 源于云,并遵循云操作模型的原则 - 容器化、编排、微服务、API、基础设施即代码和自动化。因此,从 Spark 到 Presto/Trino,从 Snowflake 到 Dremio,从 Nifi 到 Kafka,从 Prometheus 到 OpenObserve,从 Istio 到 Linkerd,以及从 Hashicorp Vault 到 Keycloak,云原生生态系统都可以与 MinIO “无缝协作”。
不要相信我们的话 - 输入您最喜欢的云原生技术,让 Google 为您提供证据。
MinIO 支持所有与 S3 兼容的查询引擎,也就是说所有引擎。如果您没有看到您使用的引擎 - 请给我们留言,我们会研究一下。
现代数据湖需要一定程度的性能,更重要的是,需要大规模性能,这是 Hadoop 只能梦寐以求的,也是传统对象存储只能幻想的。MinIO 已在多个基准测试中证明它比 Hadoop 快得多,迁移路径 已清晰记录。这意味着您的查询引擎(Spark、Presto、Trino、Snowflake、Microsoft SQL Server、Teradata 等)性能更高。这也包括您的 AI/ML 平台 - 从 MLflow 到 Kubeflow。
我们发布基准测试供全世界查看,并使其可重复。看看我们在 这篇文章中仅用 32 个节点的现成 NVMe SSD,如何在 GET 上获得 325 GiB/s(349 GB/s)的吞吐量,在 PUT 上获得 165 GiB/s(177 GB/s)的吞吐量。
MinIO 的服务器二进制文件只有 <100 MB。尽管它体积小,但它功能强大,可以在数据中心运行,但仍然小到足以在边缘舒适地运行。在 Hadoop 世界中没有这样的替代方案。对于企业来说,这意味着您的 S3 应用程序可以随时随地访问数据,并且使用相同的 API。通过实施 MinIO 边缘位置和复制功能,我们可以捕获和过滤边缘数据,并将其发送到主集群以进行聚合和进一步的分析实施。
现代数据湖扩展了 Hadoop 分裂中出现的解耦。现代数据湖具有高速查询处理引擎和高吞吐量存储。现代数据湖太大,无法容纳在数据库中,因此数据驻留在对象存储中。这样,数据库就可以专注于查询优化功能,并将存储功能外包给高速对象存储。通过将一部分数据保存在内存中并利用谓词下推(S3 Select)和外部表等功能 - 查询引擎具有更高的灵活性。
采用 Hadoop 的企业出于对开源技术的偏好而这样做。作为合乎逻辑的继任者 - 企业希望他们的数据湖也是开源的。这就是 Iceberg 蓬勃发展的原因,也是 Databricks 开源 Deltalake 的原因。
能够检查、免受锁定,以及来自数万用户的舒适感,具有真正的价值。MinIO 也是 100% 开源的,确保组织能够在投资现代数据湖的同时,保持其目标的真实性。
数据不断生成 - 这意味着它必须不断摄取 - 不会引起消化不良。MinIO 是为此而生的,并与 Kafka、Flink、RabbitMQ 和许多其他解决方案开箱即用。结果是一个数据湖/数据湖仓库,它成为单一数据源,并且可以无缝扩展到 EB 及更高。
MinIO 有多个客户,每天的数据摄取量超过 250PB。
简单并非易事。它需要付出努力、纪律,最重要的是,需要承诺。MinIO 的简单性是传奇的,是其对软件易于部署、使用、升级和扩展的哲学承诺的结果。现代数据湖不必复杂。只需几个部分,我们致力于确保 MinIO 是最易于采用和部署的。
不仅仅是 MinIO 与每种数据流协议和每条数据管道兼容,而是每种数据流协议和每条数据管道都与 MinIO 兼容。每个供应商都进行广泛且频繁的测试,以确保数据管道具有弹性和高性能。
MinIO 使用每个对象的内联擦除编码来保护数据,这比 HDFS 替代方案(它们是复制之后出现的,从未被采用)更有效。此外,MinIO 的位腐败检测确保它永远不会读取损坏的数据 - 捕获并实时修复损坏的对象。MinIO 还支持跨区域的主动-主动复制。最后,MinIO 支持完整的对象锁定框架,提供法律保留和保留(具有治理和合规模式)。
Hadoop HDFS 的继任者不是硬件设备,而是运行在通用硬件上的软件。这就是 MinIO 的本质 - 软件。与 Hadoop HDFS 一样,MinIO 旨在充分利用通用服务器。凭借利用 NVMe 驱动器和 100 GbE 网络的能力,MinIO 可以缩减数据中心 - 提高运营效率和可管理性。实际上,构建替代数据湖的公司将他们的硬件占用空间减少了 60% 或更多,同时提高了性能并减少了管理所需的 FTE。
MinIO 支持多种复杂的服务器端加密方案来保护数据 - 无论数据在哪里 - 在传输中或在存储中。MinIO 的方法确保机密性、完整性和真实性,且性能开销可以忽略不计。使用 AES-256-GCM、ChaCha20-Poly1305 和 AES-CBC 支持服务器端和客户端加密,确保应用程序兼容性。此外,MinIO 支持行业领先的密钥管理系统 (KMS)。
立即与 MinIO 的工程师讨论您关于数据湖的问题
我们将在一个小时内与您联系。