实时数据库领域中有关数据压缩的认识误区-全面实用的工控技术信息-PLC技术网-可编程控制器技术门户

实时数据库领域中有关数据压缩的认识误区

日期：2008-5-6 22:50:29 来源：本站整理
点击：作者：

点击【大中小】放大字体.
2007年10月28日晚上，我挖了一个坑，那篇“关于实时数据库接口标准的讨论”，只写了第一部分，到现在还没有填上。工作忙是一个原因，我只能利用晚上22:00至23:00这一段时间写一些东西，另外一个更重要的原因是：我还在为该文章备课呢，请大家再等一段时间吧。

今天咱另换一个话题，谈谈在实时数据库领域中，有关数据压缩的一些认识误区。

WWcW_PLCJS_COM－PLC－技.术_网

我曾答应liyaoer123（实时数据库阵地的博主）同学，与他讨论一下数据压缩技术。另外，我经常收到一些朋友的来信，他们对实时数据库及数据压缩的认识有一些误区，今天，我便收到三封讨论实时数据库的邮件。

WWW_PL※CJS_COM－PLC－技.术_网

数据压缩是实时数据库中一个很重要的概念和技术，只要接触过实时数据库，都应该听说过数据压缩。同时，很多人对实时数据库中数据压缩存在误解，我们就一条一条地解说吧。

——可——编——程——控－制－器－技——术——门——户

1.实时数据库中的数据压缩技术很高深很神秘。

WWW_PLCJS@_COM%－PLC－技.术_网

现在的数据压缩理论和技术已经很成熟，大家可以看看我转摘的博文《数据压缩技术简史》，该文章浅显易懂，是一篇很好的关于数据压缩的科普文章。

WWW_PLC※JS_COM－PmLC－技.术_网

在不同的应用领域，又可以针对不同的数据应用特征，引用不同的数据压缩技术，比如，图形处理领域的JEPG压缩技术，声音处理中的MP3压缩技术等。在流程工业行业中，工业实时数据也有一定的变化规律，可以针对这些规律，研究特定的数据压缩算法。

WWW.PLCJS.COM——可编程控制器技术门户

下面是工业实时数据的一些特征：

WWcW_PLCJS_COM－PLC－技.术_网

工业实时数据的数据变化具有一定波形规律；
工业实时数据中只有一小部分测点的值经常发生改变；
工业实时数据中很多测点的数值都具有慢变化的特征；
数值变化与时间变化具有共同变化特性；
用户在一定范围内，能够允许数据的精度损失；

在工业应用领域中，常用的压缩算法分为三类：

WWW_PLC※JS_COM－PLC－技.术_网(可编程控※制器技术门户)

无损压缩；
有损压缩；
二级压缩；

其中，无损压缩一般以通用压缩理论为基础，采取哈佛曼算法等经典的压缩算法；而有损压缩而更多地考虑了工业实时数据的特征，而采取的一些特殊舍点算法；二级压缩技术，则是同时利用了这两种数据压缩技术。

WW.W_PLC※JS_C,OM－PL,C－技.术_网

实时数据库的无损压缩以通用压缩理论为基础，随便找一本大学教材就能看懂，在此不再多说。

WW.W_PLC※JS_C,OM－PL,C－技.术_网

目前比较著名的有损压缩算法,有PI中使用的旋转门压缩算法，IH中使用的死区压缩算法，以及一些变通压缩算法（如在旋转门算法基础上改用二次均方差作为偏差比较，以提高数据还原精度），这些算法原理都比较简单。网上有很多相关的文章，我在前几篇文章中提到的变化压缩算法，是死区压缩算法的简化变种，而liyaoer123同学在他的博客上帖出了osisoft关于旋转门压缩的技术文章，大家有兴趣可以去看看。

P_L_C_技_术_网——可——编——程——控－制－器－技——术——门——户

总而言之，实时数据库的压缩算法真的不难理解，只是实时数据库重多技术中的一种而已。

WWW_P※LCJS_CO※M－PLC－技－.术_网

2.只要搞清楚数据压缩算法，就能编写好的实时数据库了。

WWW_PLC※JS_COM－PmLC－技.术_网

这个问题要从两方面来分析。

WWW_PLCJS_COM－PLC－技.术_网

首先要说明，数据压缩只是实时数据库中一个技术点，这个技术点相对于实时数据库其它技术点而言，难度和工作量是非常小的，我在《实时数据库的理论与技术》中，列出了实时数据库需关心的技术点，大家可以看看。只搞清数据压缩算法，是不能编写良好的实时数据库的。

P.L.C.技.术.网——可编程控制器技术门户

另一个方面，只从数据压缩这个角度来看，只考虑算法也是不行的。

WW.W_PLC※JS_C,OM－PL,C－技.术_网

在实时数据库的数据压缩模块中，除了要考虑压缩算法之外，还要考虑以下内容：

WWW_PLCJS※COM－PLC－技.术_网(可※编程控※制器技术门户)

变量ID、时间戳、质量戳、值四个字段在压缩算法中的数据组织，包括逻辑组织和空间组织；
压缩算法与内存缓冲区的配合；
压缩算法与磁盘文件的配合；
特殊情况的数据处理，如，启动、停止、备份、恢复等时的数据压缩状态。

3.实时数据库中，数据压缩的压缩率越高越好。

WW.W_PLCJS_COM－PLC－技.术_网

刚才提到，实时数据库中的数据压缩算法都是非常简单，这是由实时数据库的应用特点决定的。

P.L.C.技.术.网——可编程控制器技术门户

要考虑一个实时数据库的数据压缩技术技术，需要从以下几方面考虑：

P_L_C_技_术_网——可——编——程——控－制－器－技——术——门——户

数据压缩率；
压缩数据的检索和定位速度；
数据压缩时间；
数据解压时间；
压缩数据在内存和磁盘的组织结构，以便更方便地利用内存和磁盘的特性；
数据解压后的还原精度；

数据压缩率只是其中一个指标，实时数据库追求的是综合性能指标，不能只看某一项指标。

WWW_PLCJS@_COM%－PLC－技.术_网

从某个角度而言，在实时数据库的应用中，数据的压缩和解压时间的指标，要优先于数据压缩率指标。但是，在设计良好的系统中，这两个指标之间并不矛盾。

WWW_PLC※JS_COM－PmLC－技.术_网

4.无损压缩比有损压缩要好

WW.W_PLC※JS_C,OM－PL,C－技.术_网

在两个洋品牌PI和eDNA之间，经常会就无损压缩和有损压缩哪个更好这个问题产生争执。

——可——编——程——控－制－器－技——术——门——户

基本上，在此争执中，eDNA的无损压缩处于攻势，而PI则见招折招处处守势。总的来说，eDNA的市场宣传做得很不错，很多用户都是这样评价：eDNA比PI相比有很多优点，它采用了无损压缩技术，还有......，而且，它的价格比PI便宜多了。

W1WW_P4LCJS_COM－PLC－技.术_网

客观地讲，无损压缩有其好处，它在某些方面保证了数据的精度，但是，这并不能说，无损压缩一定比有损压缩好。

WWcW_PLCJS_COM－PLC－技.术_网

采用无损压缩算法的实时数据库厂家，不能回避以下两个问题：

WWW_PLCJS※COM－PLC－技.术_网(可※编程控※制器技术门户)

采用无损压缩算法的压缩率比采用有损压缩算法要低得多，针对工业实时数据的特征信息提取的无损压缩，是不可能达到10:1的。

WW.W_PLC※JS_C,OM－PL,C－技.术_网

采用无损压缩算法的实时数据库，单机总处理点数会存在性能瓶颈，以目前主流的计算机而言，采用无损压缩算法的实时数据库，平均只能处理2万左右的历史点。

WWW_P※LCJS_CO※M－PLC－技－.术_网

另外，无损压缩所宣称的100%保持数据不丢失，只是一句话宣传词，在计算机上处理工业实时数据，本身就存在大量的数据信息丢失：

WWW_PLCJS※COM－PLC－技.术_网(可※编程控※制器技术门户)

数据采集传感器存在采集误差；
数据采集是实时数据趋势变化的采样和数字化的过程，采集周期之间的特征波型已经丢失；
计算机处理和网络传输造成的延时和不确定，也会造成采集波型的失真；
传感器和计算机的数据类型字节限制，也会造成数据的失真。

在存在多处无法控制的失真环节的情况下，只强调保存数据的完全不失真，是没有意义的，只是商务宣传的需要，只要是数字化和计算机化处理，所有的数据就是近似的处理过程。

WWW※PLCJS_COM－PL＃C－技.术_网(可编※程控※制器技术门户)

有人会说，这也失真、那也失真，还处理个屁呀。这其实是一种处女情结，是在无意义地追求某个特定的指标而不考虑系统整体性能。如果实时数据库在采用无损压缩的同时，还能保证很快的解压缩速度和较高的压缩率，当然无可厚非，但目前的理论和技术条件下，这些指标是矛盾的。而采取有损压缩技术，是在不影响整体精度情况下的性能指标的综合平衡。

P_L_C_技_术_网——可——编——程——控－制－器－技——术——门——户

5.实时数据库中，数据压缩不重要，要不要数据压缩没关系。

plcjs.技.术_网

关于这一论点，有两种不同的观点。

WWW_PL※CJS_COM－PLC－技.术_网

第一种观点认为，现在的计算机硬盘很便宜了，磁盘容量不够，大不了多买几块磁盘。

WWW_P※LCJS_CO※M－PLC－技－.术_网

第二种观点认为，实时数据库的重点是上层功能和应用，在工业应用中，数据压缩费力又不讨好，还不如将精力放在其它功能上。

WWW※PLCJS_COM－PL＃C－技.术_网(可编※程控※制器技术门户)

这两种观点都不正确，实时数据库的市场存在意义，是因为现在的其它数据库产品，不能地处理大量工业实时和历史数据。这里说不能处理，包括处理速度和磁盘容量。

P.L.C.技.术.网——可编程控制器技术门户

在我的文章《实时数据库历史数据容量的计算方法》中计算得出，用关系数据库保存10000个每秒钟变化一次的双精度数，同时建立一个索引，保存一年需要磁盘空间为：12922G，而用实时数据库保存，则只需103G，大家可以换算一下，12922G，需要多少块磁盘？

WWW.PLCJS.COM——可编程控制器技术门户

磁盘容量只是问题的一个方面，另一方面，数据的高压缩率意味着整个系统的数据处理速度更快，这体现在三个方面：高压缩率的数据，占用磁盘空间小，将数据从磁盘读入内存的速度快，网络传输的速度快，数据在内存中占用的空间小。而这三个因素，是实时数据库提高系统整体运行速度很重要的几个因素。

plcjs.技.术_网

一个良好的实时数据库，必须要处理好实时压缩问题，只有处理好数据压缩问题，才能使系统的整体性能达到某个可用性指标。

本新闻共2页,当前在第1页1 2

WWW_PLCJ－S_COM－PLC－技.术_网(可－编程控－制器技术－门户)

上一篇: 悲观程序员的五件武器
下一篇: MFC获得各种视图指针的方法

评论内容

载入中...

P
L
C
技
术
网
|
可
编
程
控
制
器
技
术
门
户
|
十
万
P
L
C
工
程
师
的
共
同
选
择
！

·最新招聘信息

·最新求职信息

·推荐产品

·推荐厂商

·栏目热门排行

·站内热门排行