c++ std::string能否存储二进制字符以及'\0'字符?

c++的字符串类std::string能否存储二进制字符以及字符'\0'?


要解决这个问题,我们首先要了解c++的std::string的存储结构。
(注意不同的平台下C++规范对std::string的实现不完全一致,例如sizeof(std::string)在linux x64 gcc-4.4下的输出是8,而在mac gcc 4.2下的输出是24; 这篇文章以Linux x64 gcc Red Hat 4.4.4为运行环境。)

首先检查std::string类的实例大小, 即一个std::string对象占用空间大小。

#include <stdio.h>
#include <string>

int main(int argc, char * argv[])
{
    std::string ss("1234567890");

    printf("sizeof=[%d]\n", sizeof(ss));
    printf("size()=[%d]\n", ss.size());
    printf("data  =[%s]\n", ss.data());

    return 0;
}

运行结果如下:

sizeof=[8]
size()=[10]
data  =[1234567890]

我们可以看到sizeof(ss)的输出大小为固定8字节,和string的内容无关,不管内容字符串有多少长度,这个大小都正好是一个地址长度,这说明std::string实例只有一个成员变量即指向字符串内容的指针,而并没有别的成员变量来记录实际字符串长度了。其类成员内存分配模型如下:

1.jpg

总结起来std::string的成员只有一个指向字符串值的指针。

再看函数size()的输出,正好是字符串内容的长度10个字符,所以size()返回就是10,这个size()函数类似于C语言里返回char *类型数据的长度,即strlen()的返回值(??? 先这么理解)。

下面我们用程序来验证这个问题,即std::string只有一个指针成员变量,这个指针正好指向字符串内容的内存地址。

int main(int argc, char * argv[])
{
    std::string ss("1234567890");
    void * pv = (void *)&ss;
    char * ps = *((char **)pv);

    printf("&ss=[%p]\n", pv);
    printf("*(ss)=[%p]\n", ps);
    printf("&data=[%p]\n", ss.data());
    printf("data=[%s]\n", ss.data());
    return 0;
}

输出结果如下:

&ss=[0x7fffc8d43ff0]
*(ss)=[0x1ba8028]
&data=[0x1ba8028]
data=[1234567890]

可以看到ss对象的地址是0x7fffc8d43ff0,这个地址上存储的值是0x1ba8028,这个值和data()的值是一样的,也就是说明ss的唯一成员变量就是一个地址,这个地址是一个指向字符串内容的指针。
至此我们已经了解的std::string对象的存储模式。


接下来我们再讨论std::string能否存储二进制字符以及'\0'字符的问题。还是通过一个例子说明。

#include <stdio.h>
#include <string.h>
#include <string>

int main(int argc, char * argv[])
{
    std::string ss = std::string("12") + '\0' + "34" + '\11' + "56" + '\255' + "78";

    printf("strlen=[%d]\n", strlen(ss.data()));
    printf("data  =[%s]\n", ss.data());
    printf("sizeof=[%d]\n", sizeof(ss));
    printf("size()=[%d]\n", ss.size());

    return 0;
}

依据前面的经验,我们可以很快得出:strlen输出应该是2,data输出应该是"12",sizeof输出应该是8,可是size()输出应该是多少呢?有两种可能:
a). 输出2,即和strlen一样,因为data的第三个字符为'\0'。
b). 输出11,因为总的字符长度为11。
如果a)是正确的,那么相当于剩下的"34", "\255", "56",以及"78"都找不到了,无法引用了,是个严重的memory leak问题;而如果b)是正确的,那么这个size=11是如何计算出来的呢,尽管在"78"之后有一个'\0’字符, 从'1'开始到"78"之后的'\0'长度正好是11,现在的问题是在"12"和"34"之后也有一个'\0'字符,std::string如何得知字符串内容已经结束了呢?

先看上述代码的实际运行结果:

strlen=[2]
data  =[12]
sizeof=[8]
size()=[11]

我们看到size()的实际输出值是11,可见第二种可能性是正确的,所以memory leak的问题是不存在的,那么剩下的问题是size()如何得出正确的值。


通过前面分析我们已经知道两点,1.这个size肯定是需要记录下来的,存在某一个地方;2.类std::string的实例大小是8,即一个指针大小,而这个指针正好确实是指向了字符串内容的地址;貌似没有地方存储这个size大小的值了。

做过应用程序内存分配库函数API的同学估计已经猜到了,std::string可能会把这个size存在什么地方了:),另外如果学习过C++ new数组操作的童鞋估计也猜到了,例如char * ch = new char[50],c++会在ch地址的前面位置存储这个长度50 。
下面我们再给出一个例子来验证这个猜测。

#include <stdio.h>
#include <string>

int main(int argc, char * argv[]) {
    std::string ss = "1234567890";
    void * pv = (void *)&ss;
    char * ps = *((char **)pv);

    printf("pv=%p\n", pv);
    printf("ps=%p\n", ps);

    size_t len = ss.size();

    return 0;
}

用GDB单步调试

(gdb) b _ZNKSs4sizeEv
Breakpoint 1 at 0x400688
(gdb) r
pv=0x7fffffffe030
ps=0x601028
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
=> 0x000000388f49c050 <+0>:     mov    (%rdi),%rax
   0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
   0x000000388f49c057 <+7>:     retq   
End of assembler dump.
(gdb) info register rdi
rdi            0x7fffffffe030   140737488347184
(gdb) si
(gdb) info register rax
rax            0x601028 6295592
(gdb) si
(gdb) info register rax
rax            0xa      10
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
   0x000000388f49c050 <+0>:     mov    (%rdi),%rax
   0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
=> 0x000000388f49c057 <+7>:     retq   
End of assembler dump.
(gdb) x/64 0x601028-32 
0x601008:       49      0       10      0
0x601018:       10      0       0       0
0x601028:       875770417       943142453       12345   0
0x601038:       135121  0       0       0
0x601048:       0       0       0       0
0x601058:       0       0       0       0
0x601068:       0       0       0       0
0x601078:       0       0       0       0
0x601088:       0       0       0       0
0x601098:       0       0       0       0
0x6010a8:       0       0       0       0
0x6010b8:       0       0       0       0
0x6010c8:       0       0       0       0
0x6010d8:       0       0       0       0
0x6010e8:       0       0       0       0
0x6010f8:       0       0       0       0

单步来分析这些指令的含义

(gdb) b _ZNKSs4sizeEv

设置程序断点std::string::size(),这个是mangle的函数名。

(gdb) r
pv=0x7fffffffe030
ps=0x601028

执行到断点的时候,程序中的两个print语句已经执行完成,我们记住这两个值,下面会用到。

(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
=> 0x000000388f49c050 <+0>:     mov    (%rdi),%rax
0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
0x000000388f49c057 <+7>:     retq
End of assembler dump.

反汇编std::string::size()代码,我们可以看到它只有三条指令。

(gdb) info register rdi
rdi            0x7fffffffe030   140737488347184

查看rdi寄存器的值,我们看到是0x7fffffffe030,这和前面打印出来的pv的值是一样的,也就是说%rdi存储的是ss对象的地址。
在之前介绍x64函数传参规范的时候,我们知道函数的第一个参数使用%rdi传递的,有人可能会问了size()没有参数啊,其实C++的实例函数都是默认把this指针作为函数的第一个参数;std::string::size()可理解成C代码的size(std::string * ss);

(gdb) si
(gdb) info register rax
rax            0x601028 6295592

执行完指令mov    (%rdi),%rax,把(%rdi)的值load到%rax寄存器;我们看到此时%rax寄存器的值和前面打印出来的ps的值是一样的,就是ss的内容字符串的地址。

(gdb) si
(gdb) info register rax
rax            0xa      10
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
0x000000388f49c050 <+0>:     mov    (%rdi),%rax
0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
=> 0x000000388f49c057 <+7>:     retq

执行完指令mov    -0x18(%rax),%rax,把-0x18(%rax)的值load到%rax寄存器,我们可以看到此时%rax的值就是字符串的长度。再把字符串内容地址前后64字节内容打出来看看:

(gdb) x/64 0x601028-32 
0x601008:       49      0       10      0
0x601018:       10      0       0       0
0x601028:       875770417       943142453       12345   0
0x601038:       135121  0       0       0
0x601048:       0       0       0       0
0x601058:       0       0       0       0
0x601068:       0       0       0       0
0x601078:       0       0       0       0
0x601088:       0       0       0       0
0x601098:       0       0       0       0
0x6010a8:       0       0       0       0
0x6010b8:       0       0       0       0
0x6010c8:       0       0       0       0
0x6010d8:       0       0       0       0
0x6010e8:       0       0       0       0
0x6010f8:       0       0       0       0

据此我们可以推测std::string对象使用字符串内容地址的前面0x18开始存储的是size的值,也就是字符串地址前面的第24字节开始的8字节长度存储size的值;类字符串buffer内存分配模型如下:

2.jpg

最后通过几个例子验证一下:

#include <stdio.h>
#include <string>

void foo(const std::string & ss) {
    char * ps = *((char **)&ss);
    printf("size=%d,*(ps - 0x18)=%d\n", ss.size(), *((long *)(ps - 24)));
}

int main(int argc, char * argv[])
{
    std::string ss("");
    foo(ss);

    ss = "1";
    foo(ss);

    ss = std::string("12") + '\0' + "34" + '\11' + "56" + '\255' + "78";
    foo(ss);

    return 0;
}

运行结果

size=0,*(ps - 0x18)=0
size=1,*(ps - 0x18)=1
size=11,*(ps - 0x18)=11



作者:CodingCode
链接:https://www.jianshu.com/p/ba775bb9cc92
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

Show Comments