公司开始搞分布式数据库了,接下来的时间正好有机会接触Hadoop,以前简单的以为Hadoop只是个简单的HDFS,现在才发现Hadoop包括HDFS/MapReduce,再加上Hbase。就有了cloud computing的基础。
这两天就把之前做过的关于DataOntap和Celerra的dedup的实验贴出来,最近也就没时间研究其他东西了。
DataOntap的文档中说它是SIS,即single instance stroage,即单实例存储,所以就是文件级的dedup。下面就来验证它到底是不是SIS?
1、看下现在存储(vol1)的容量,使用101MB
2、101M只包括只有如下文件
3、现在增加2.exe(2.exe和1.exe是完全一样的文件)
4、可以看到由101MB增加到105MB
5、开始做dedup,如果确如文档中所说它是SIS,那么容量应该会减少,至少不是现在的105M
DataOnTap2> sis status
No status entry found.
DataOnTap2> sis on /vol/vol1
SIS for "/vol/vol1" is enabled.
Already existing data could be processed by running "sis start -s /vol/vol1".
DataOnTap2> sis start -s /vol/vol1
The file system will be scanned to process existing data in /vol/vol1.
This operation may initialize related existing metafiles.
Are you sure you want to proceed (y/n)? y
The SIS operation for "/vol/vol1" is started.
DataOnTap2> Sat Oct 8 02:21:27 GMT [DataOnTap2: wafl.scan.start:info]: Starting SIS volume scan on volume vol1.
Sat Oct 8 02:21:52 GMT [DataOnTap2: wafl.snap.delete:info]: Snapshot copy sis.5d9cd2b6-e429-11e0-8fc5-005056a5000b on volume vol1 NetApp was deleted by the Data ONTAP function dense_delete_snapshot. The unique ID for this Snapshot copy is (1, 20964).
6、做完SIS后发现容量确实变成了102M
从108404KB减少到104344KB
上面已经证明了DataOntap8确实是SIS,那么会不会是块级别或者是字节级别的dedup呢?为此,有了下面的实验
1、先上传wafl-overview.ppt,容量为103MB
2、再上传wafl-overview-2.ppt(wafl-overview-2.ppt比 wafl-overview.ppt多了2页),做dedup之前大小为103MB,105996KB
3、开始dedup,如果是block-level或byte-level的,那么大小应该经dedup后小于105996KB
DataOnTap2> sis start -s /vol/vol1
The file system will be scanned to process existing data in /vol/vol1.
This operation may initialize related existing metafiles.
Are you sure you want to proceed (y/n)? y
The SIS operation for "/vol/vol1" is started.
DataOnTap2> Sat Oct 8 03:18:25 GMT [DataOnTap2: wafl.scan.start:info]: Starting SIS volume scan on volume vol1.
DataOnTap2> Sat Oct 8 03:18:53 GMT [DataOnTap2: wafl.snap.delete:info]: Snapshot copy sis.5d9cd2b6-e429-11e0-8fc5-005056a5000b on volume vol1 NetApp was deleted by the Data ONTAP function dense_delete_snapshot. The unique ID for this Snapshot copy is (2, 20983).
4、经过dedup并没有改变
通过以上的实验说明,DataOntap8确实是file-level的SIS,并不是block-level或byte-level的。可能有人会有疑问:上面的2个PPT的实验文件太小,可能采用的block-level的技术,而文件大小没有达到block-level的block大小。但是据我所知,如果是block-level的,不管是定长还是不定长,都不会超过上面的412KB吧。所以只要是block-level的,它肯定会进行切分,并删除重复的部分。所以DataOntap8只是file-level的。
下次把celerra的dedup实验贴出来。。。。。