php xattr操作文件扩展属性

2021-07-01 03:06:39

观摩了这篇文章后https://www.cnblogs.com/zyblog-coder/p/15013804.html 学到了php还有操作文件扩展属性的扩展

快速安装了一下

sudo apt-get install xattr
sudo pecl install xattr

然后编辑php.ini加一下扩展开启

extension=xattr

然后查看了一下手册学到了这几个函数

xattr_get($file)                      获取文件存储单个key的值
xattr_list($file)                     获取文件存储的key列表
xattr_remove($file, $key)             移除文件存储的某个key
xattr_set($file, $key, $value)        设置文件存储的某个key的值
xattr_supported($file)                查看文件是否支持xattr

然后迅速实践了一下，发现在我这个ubuntu系统里面，单个文件，如果只设置一个key，最大长度能写入4040个字符

<?php
$file = "test.log";
is_file($file) || touch($file);

for ($i=0; $i < 5000; $i++) { 
  $value = str_repeat("1", $i);
  $result = xattr_set($file, ‘0‘, $value);
  if(!$result){
    var_dump($i);//打印出来的是4041 说明只能存储到4040
    exit;
    break;
  }
}

随着你设置的key越多，那单个key能存储的上限也就逐渐降低下来。

如果设置2个key，平均每个key最大长度能写入2008个字符

如果设置10个key，平均每个key最大长度能写入384个字符

如果设置26个key，平均每个key最大长度能写入136个字符

由此可见，如果你想尽可能多的存储数据，可以只存一个key，然后把数据放入序列化存储，如果你的数据不大想快速的获取数据，你可以把每个key都存储起来，比如一张表的所有字段(当然要求这些字段不是那种很长的text blob类型)

这个扩展属性的优势在于其写入速度很快基本上写入单个key ，value存储4040个字符的时候是0.03-0.04毫秒，读取的时候也基本上是0.04毫秒。

读取使用代码

<?php
$file = "test.log";
is_file($file) || touch($file);
$attr_key_list = xattr_list($file);
foreach ($attr_key_list as $attr_key) {
  $new_data[$attr_key] = xattr_get($file, $attr_key);
}

但是随着你的key越来越多比如你存储50个key，每个key存储很短的20个字符的小数据，你会发现写入这50个字段耗时0.2-0.4毫秒左右，读取也是0.2-0.3毫秒左右

同等情况下50个key,每个key存储20个字符，json_encode 序列化然后file_put_contents 耗时 0.16 毫秒，file_get_contents 读取内容然后json_decode耗时0.046毫秒左右

同等情况下50个key,每个key存储20个字符，serialize 序列化然后file_put_contents 耗时 0.15毫秒，file_get_contents 读取内容然后unserialize耗时0.031毫秒左右

同等情况下50个key,每个key存储20个字符，serialize 序列化然后file_put_contents 耗时 0.18毫秒，file_get_contents 读取内容然后unserialize耗时0.027毫秒左右

这里可以做一个表格

存储方式	1个key序列化并写入(毫秒)	1个key读取并反序列化(毫秒)	10个key序列化并写入(毫秒)	10个key读取并反序列化(毫秒)	50个key序列化并写入(毫秒)	50个key读取并反序列化(毫秒)
xattr key存储	0.03	0.02	0.07	0.23	0.2-0.4	0.2-0.3
json+file_put_contents	0.15	0.03	0.16	0.028	0.16	0.046
serialize+file_put_contents	0.14	0.021	0.11	0.017	0.15	0.031
igbinary_serialize+file_put_contents	0.165	0.04	0.14	0.018	0.18	0.027

我们发现多key的时候 xattr并没有什么优势，只有在少量的几个key的时候它的优势才是非常明显的，而且我发现一个奇怪的现象file_put_contents对已有文件写入反而慢，如果之前没有文件使用file_put_contents反而快。

而xattr的操作是已有文件比较快，没有文件的话，还得自己手动新建一个文件就会比较慢。

这说明了这种xattr存储非常适合少量key数据的写入，因为总体来看写入速度是很快的，其读取速度随着key的增加而变慢，毕竟这里用了循环读取key，而序列化的方式还是读取一次文件+序列化一次文件，其成本没有太大开销，所以在key增多的时候反而更加有优势。

比较经典的案例场景是

场景1：有一个总列表数据做了文件缓存，但是有时候业务场景下列表页面只想知道其数量count，这种情况下，去file_get_contents unserialize/json_decode 再count 是很不划算的，因为那样拿到了全部的数据但是又只用到count,此时可以预先在该列表数据文件扩展属性上面增加 total_count 属性，单个key读取其属性返回，根本不用操作文件本身内容，大大提高了速度，可以把一个1ms左右(打开读取并序列化取count一般这样的操作一个文件要1ms)的操作提速50倍。

场景2：还可以用于少量信息及时存储场景，比如有数据需要及时存储投递，但是不需要后续处理，后续处理可以交给定时器异步，那么就可以用这样的方式生成一个临时文件并存储少量4000个(左右)字符内的数据，及时返回写入结果，让后续的处理交给另外的程序来解决，可以将写操作省下大量时间，毕竟写单个小文件是要0.15ms的。（更别提redis连接connect set等一系列操作了）

让我们更加极端一些，就只写入非常简单的字符串。

写入

1. attr写入

<?php
$file = "test.log";
$start_time = microtime(true);
xattr_set($file, ‘test_key‘, ‘test_data‘);
$end_time = microtime(true);
echo ($end_time - $start_time) * 1000 . "  ms \r\n";//耗费时间0.03ms

2. file_put_contents 文件写入

<?php
$file = "test.log";
$start_time = microtime(true);
file_put_contents($file, ‘test_data‘);
$end_time = microtime(true);
echo ($end_time - $start_time) * 1000 . "  ms \r\n";//耗费时间0.15ms 即使是这么小的文件写入也要0.15ms

3. redis 写入（为了排除连接connect耗费的时间，我特意把它拿出计算时间的区间外了，只记录一次set时间）

<?php
$file = "test.log";
$redis = new Redis();
$redis->connect("127.0.0.1", 6379);
$start_time = microtime(true);
$redis->set($file, "test_data");
$end_time = microtime(true);
echo ($end_time - $start_time) * 1000 . "  ms \r\n";
//首次set耗费时间7.5ms 后面有了key之后再set耗费时间0.1299ms

看到了吗，写入速度是file写入的5倍！

如果你沉迷与内存数据库写入，认为redis非常快，那你错了，redis是很快，但是再快也是有上限的，毕竟虽然大家都说每秒50000次写入，这意味着每次写入要0.02ms，可是我们在本机测试的时候并不会达到这个速度的，我本地写入redis 每秒也就30000次写入撑死了，其速度仍然低于xattr写入速度。

由此可见，作为小数据内容存储并写入其速度是很快的，很适合高速写入。

读取

1. attr读取

<?php
$file = "test.log";
$start_time = microtime(true);
$attr = xattr_get($file, ‘test_key‘);
$end_time = microtime(true);
echo ($end_time - $start_time) * 1000 . "  ms \r\n";//耗费时间0.026ms

2. file_get_contents 文件读取

<?php
$file = "test.log";
$start_time = microtime(true);
$attr = file_get_contents($file);
$end_time = microtime(true);
echo ($end_time - $start_time) * 1000 . "  ms \r\n";//耗费时间0.034ms

3. redis读取（同样为了排除连接connect耗费的时间，我特意把它拿出计算时间的区间外了，只记录一次get时间）

<?php
$file = "test.log";
$redis = new Redis();
$redis->connect("127.0.0.1", 6379);
$start_time = microtime(true);
$attr = $redis->get($file);
$end_time = microtime(true);
echo ($end_time - $start_time) * 1000 . "  ms \r\n";//get耗费时间0.12ms

读取速度快于file读取23%！而且如果是刚刚描述的场景1下该文件有大量数据，但是只想获得一个count，那就更快了，毕竟文件越大，file_get_contents 越慢，但是获取attr的速度几乎不变。

我们看到redis的读取速度并不是那么理想，也许是我电脑给redis的配置不是最优，但是根据大家所记录的redis get 每秒钟10万次请求来看那就是单次读取0.01ms，我认为这个10万次应该不是单进程读取而是能支撑的多线程多进程读取总量，可是我们往往无法在本机达到那样的速度，这是确实让人遗憾。

总之，综合来看，xattr速度是非常的高啊，非常适合特殊场景进行使用，推荐大家尝试！

另外给这个https://www.cnblogs.com/zyblog-coder/p/15013804.html作者点赞，是他给我提供了一个这样的知识点和灵感

php xattr操作文件扩展属性

码农公寓

相关文章