高效操作字串的String Reference类

如下面的代码中一个函数接受一个std::string常量引用,在其函数内部需要使用std::string的一些函数操作字串。

void foo(const std::string& param) {
  ......
}

参数使用的是常量引用,如果传入一个std::string就不需要额外的拷贝。但是如果调用时传入的是一个字串常量,这时必然会生成一个std::string对象,并且会有一次内存拷贝。

关于字串发生拷贝可以使用下面的代码测试:

#include <string>
namespace {
const char* sString = "123456";

void foo(const std::string& str) {
  printf ("input string address: %x\n", str.c_str() );
}
}  // namespace

int main()
{
  printf("const string address: %x\n", sString);
  foo(sString);
  return 0;
}

这是一个很典型的问题,事实上只要不修改字串内容,并不需要另外复制一份。特别是对一些比较大的字串,避免拷贝对内存和性能都有极大的好处。于是Jeffrey Yasskin提出一个String reference : a non-owning reference to a string. 很多大型的项目都提供了各自的实现,包括Boost::StringRef, LLVM的StringRef, Chromium的base::StringPiece。

(STL也有字串的Copy-on-Write的实现,但要看实现版本。这里有更多的说明:std::string的Copy-on-Write:不如想象中美好。)


以下用StringPiece为例来介绍。它的原理也很简单,StringPiece内部仅持有字串指针和一个长度值,然后参照std::string的接口提供一组操作函数。比如find, find_first_of, rfind, substr. 

  template <typename STRING_TYPE> class BasicStringPiece {
 public:
  ......
  BasicStringPiece substr(size_type pos,
                          size_type n = BasicStringPiece::npos) const {
    return internal::substr(*this, pos, n);
  }

 protected:
  const value_type* ptr_;
  size_type     length_;
};
typedef BasicStringPiece<std::string> StringPiece;

它析构时不会释放字串,因为StringPiece不持有字串的所有权,也就是字串对象本身的生命周期一定要长于StringPiece对象。

可以看到StringPiece是一个模板类,主要是因为它需要同时支持以std::string和C string传递的参数。


以上面提供的取子串的操作为例,一个基本思路就是创建新的StringPiece, 把它的指针指到子串的起始位置,再将长度设定为子串的长度就可以了。在这个过程并没有出现字串的拷贝。

template<typename STR>
BasicStringPiece<STR> substrT(const BasicStringPiece<STR>& self,
                              size_t pos,
                              size_t n) {
  if (pos > self.size()) pos = self.size();
  if (n > self.size() - pos) n = self.size() - pos;
  return BasicStringPiece<STR>(self.data() + pos, n);
}


Enjoy it!



上一篇:WCF服务端实例的生命周期


下一篇:梭子鱼推出AI解决方案实时防御鱼叉式网络钓鱼和网络欺诈