开源窜改应用于时候序列数据压缩

发布日期:2024-12-24 23:37    点击次数:69

高档时候序列压缩器 (ATSC) 代表着在保捏分析智力的同期优化存储本钱的要紧机遇。

译自 Open Source Innovation Comes to Time-Series Data Compression,作家 Carlos Rolo。

时候序列数据相聚固有地产生海量存储需求,这可能会压垮组织。从复旧推断性难得的物联网系统到天气追踪系统和个东谈主健身应用要领,这些监控惩处决议累积了多数的及时信息——平日每秒相聚多个数据点,存储本钱呈指数级增长。

诚然传统的 数据压缩在一定进度上缓解了这些存储需求,但业界耐久以来一直需要更有用的惩处决议。意识到这一挑战,NetApp Instaclustr与堪培拉大学通过OpenSI贪图调解开荒了高档时候序列压缩器 (ATSC)——一项从根底上从头构思大容量时候序列数据压缩的开源窜改。

以下是对于它的使用要领。

可控损耗带来上风

面前时候序列压缩鸿沟主要由无损惩处决议主导,举例LZ4、DoubleDelta和ZSTD——这些器用旨在以无缺的保真度保留数据。ATSC 接受了一个平日被漠视的执行:大多数时候序列数据还是包含一定进度的损耗,无论是由于数据收长入的固有为止、有利欠采样如故例行数据治理经由(如滚动和平均)。

基于此意识,ATSC 扫尾了一种复杂的 有损压缩要领。它不是存储完整的数据集,而是生成与原始数据格式非常接近的数学函数,只存储这些函数的基本参数。这种要领与粒度可建树性相谄媚——用户不错精准调遣所需的精度级别,凭证其特定用例在存储效劳和数据保真度之间获取均衡。收场是解压缩后的数据诚然与原始数据作假足沟通,但仍保捏了本体分析和决策所需的精度。

推敲一个温度监控数据的本体示例。下图比较了传统的无损存储与ATSC的要领,展示了ATSC若何捕捉系统方针典型的基本温度格式和渐变变化。诚然ATSC版块使用的存储空间明白较少,但它保留了进行专诚旨分析所需的重要特征——峰值、谷值和举座趋势仍然明晰可见且具有分析价值。

无损与ATSC温度数据

ATSC 的架构

ATSC的中枢禁受一套复杂的数学要领来压缩时候序列数据:快速傅里叶变换 (FFT) 用于周期性格式,常数函数用于褂讪读数,Catmull-Rom插值用于平滑过渡,反距离加权插值用于不轨则数据点。系统通过对每个数据段的快速统计分析智能地选择最好要领。每当选择不解确时,ATSC齐会对多种要领进行基准测试,然后选择最有用的压缩要领。

ATSC联想中的一个重要窜改是其默许的数据分割政策。ATSC不是将通盘这个词数据集看成单个单位进行处理,而是将数据判辨成可治理的段。这种要领具有多种上风:

通过更小的数据块的并行处理升迁议论效劳。通过适合局部数据特征来更精准地拟合函数。减少压缩息争压缩过程中的内存支出。选择性数据看望,允许用户解压缩特定时候范围而无需处理通盘这个词文献。

这种架构永恒获取显耀效劳,压缩后的数据与原始值的偏差平日小于1%。对于需要更高精度的应用要领,ATSC 提供可建树的精度阈值以匹配特定用例的条款。

无损与ATSC多项式拟合与ATSC快速傅里叶变换拟合

打破性的压缩性能

ATSC扫尾了压缩比,从根底上改变了时候序列数据存储的经济性。在严格的测试中,压缩比范围从46:1到880:1不等,平日分析价值的亏空不错忽略不计。从另一个角度来看:与行业尺度惩处决议比拟,ATSC的压缩效劳大致是LZ4的10倍,是Prometheus的30倍。

拟合度更好的紫色函数使用的数据存储空间是拟合度较差的红色函数的两倍。

这些性能方针径直悠扬为运营上风:曩昔需要TB级存储空间的数据当今不错用GB级存储空间难得,同期保留分析所需保真度。这种压缩效劳使得保留更长的历史数据集和扫尾更高频率的数据相聚成为可能——这些选项在传统的压缩要领中之前是本钱过高的。

实用应用和用例

ATSC私有的压缩智力使其在不错均衡存储效劳和精准数据再现的场景中特殊有价值。以下是ATSC提供不凡价值的三个重要应用:

耐久数据归档

对于治理历史方针的组织来说,ATSC改变了数据保留的经济性。在将时候序列数据迁徙到耐久存储时,ATSC的压缩使组织有时难得全面的历史纪录,同期大幅镌汰存储本钱。对于大多数分析方针而言,最小的信息丢失不错忽略不计,这使其成为归档条款的理思惩处决议。

高频数据采集

ATSC惩处了常见的监控困难:采样频率和存储本钱之间的衡量。由于存储为止而曩昔仅限于30秒采样终止的组织当今不错大幅升迁其采样率,同期本体上镌汰存储需求。这使得更精准的事件检测和系统监控成为可能,而无需传统的存储背负。

运营方针和可视化

对于系统监控应用要领(追踪CPU使用率、内存行使率和近似方针),ATSC的要领特殊有用。这些方针平日显现ATSC的数学函数不错有用建模的迟缓变化和格式。当将此类数据可视化以供东谈主工分析时,精度上的幽微相反是难以察觉的,而存储从简却很大。

ATSC压缩要领的活泼性允许组织针对每个特定用例优化其数据存储政策,在精度和效劳之间找到理思的均衡点。

原始数据(黄色)与压缩88倍的ATSC数据(绿色)。

驱动使用ATSC非常简便

ATSC看成开源形势在GitHub上可用,组织不错随时评估和践诺。该形势正在积极推广其生态系统,正在开荒与包括ClickHouse和Apache Cassandra在内流行数据库的新集成。这些集成将简化ATSC的禁受,使其庞大的压缩智力更容易被更平日的应用要领所使用。

对于治理大范围时候序列数据的组织而言,ATSC代表着优化存储本钱同期保捏分析智力的要紧机遇。其开源特点确保了透明性并允许社区孝敬,而其可建树的压缩确立则不错精准戒指存储效劳和数据保真度之间的均衡。

跟着数据量呈指数级增长,ATSC提供了一种求实、具有前瞻性的时候序列数据压缩要领,它稳当本领要乞降业务所在。