什么是反序列化？反序列化的过程，原理

介绍

本篇主要分析java序列化、反序列化的过程，原理，
并且通过简化版URLDNS做案例分析利用链原理。

本篇很重要，打好基础是关键。

什么是序列化

我的理解很简单，就是将对象转化为可以传输、储存的数据。
什么意思？
正常一个对象，只能存在于程序运行时，当程序运行结束了，对象就消失了，对象只在程序运行时存在

如有这样一个需求，我想把user对象（包含了名字，年龄，身高，简历信息）传给数据持久化的服务（保存数据的服务）。
需要怎么做？
创建一个json对象，然后把user对象信息填写到json中，
{“name”:“zhangsan”,“age”:12,“height”,12,“resume”:{“school”:“tsinghua”,“level”:1}}
然后把这个json传给持久化服务，
这样就要求每次传输数据时，都要将对象先转为json等格式数据，再进行传输，而且这只是简单的数据。
如果是更复杂的，对象A里有对象B、C，对象B又有D，则需要手动，将这些数据转成json，发送到远程服务器，再根据这些数据，还原对象。

而使用序列化，则是将user对象序列化为数据，传输到持久化服务器上时，再反序列化，就得到了user对象，让对象可以传输。
所以序列化，就是将对象转化为数据，相当与给对象拍了个快照，传输或者储存，使用时再反序列化，又变为了对象。

看下php序列化和反序列化过程：

执行结果：

再反序列化看下：

php的序列化将对象转化为了字符串，包含了对象的所有数据信息，
反序列化时再根据这些信息还原对象。

【一>所有资源关注我，私信回复“资料”获取<一】
1、200份很多已经买不到的绝版电子书
2、30G安全大厂内部的视频资料
3、100份src文档
4、常见安全面试题
5、ctf大赛经典题目解析
6、全套工具包
7、应急响应笔记
8、网络安全学习路线

JAVA序列化

一个java序列化对象例子：

class Person implements Serializable{    public String name;    public int age;    Person(String name,int age){        this.name = name;        this.age = age;    }}public class Main {    public static void main(String []args) throws IOException, ClassNotFoundException, NoSuchMethodException, InvocationTargetException, IllegalAccessException, InstantiationException {        FileOutputStream out =new FileOutputStream("person.txt");        ObjectOutputStream obj_out = new ObjectOutputStream(out);        obj_out.writeObject(new Person("z3",12));    }}

FileOutputStream和ObjectOutputStream是java的流操作，可以把OutputStream当做一个单向流出的水管，FileOutputStream打开了文件，就相当于给文件接了一个File类型水管，然后把FileOutputStream类型对象传给了ObjectOutputStream，相当于把File类型水管接到了Object类型水管。

由于Object类是所有类的父类，所以Object类型水管可以投放任何对象，

这里创建了Person对象并传给writeObject方法，
相当于把Person对象扔进了Object类型水管，即 Person对象->Object类型水管->File类型水管->文件
这样就把Person对象写入了文件，

java输入输出流的方式处理数据真聪明
如果我想把序列化对象写入byte数组，那就创建个byteArrayOutputStream类型水管，然后，把它接到Object类型水管上，后面步骤不变，则：Person对象->Object类型水管->byte类型水管->byte数组

回到正题，
打开文件查看是乱码。

因为每个语言都有自己的序列化规则，java的序列化方式不适用于用文本方式查看。
可以使用SerializationDumper工具查看。

红框内对应的是类名，类属性名，成员变量值。
如果在类里添加方法，会被序列化吗？
答案是不会，调试发现，writeObject时只会将FieldValues即成员变量序列化，
所以，序列化的并不是整个对象，只是对象的属性值。

以上就是java序列化的方法了，
但仔细看代码，会发现Person类继承了Serializable接口，
但是没有实现接口中的方法，，那继承这接口有什么用？去掉试试。
报错了

这是什么原因？
看一下Serializable接口，接口是空的

public interface Serializable {}

调试看一下，为什么非要继承个空接口才能序列化？这空接口起到了什么作用？
如图

原因在这里，如果类不继承Serializable，那对象不属于字符串、数组、枚举类型，那就会进入else，抛出NotSerializableException异常，
所以，Serializable，只是用来标志，这个对象可以被序列化的。

在查看Serializable接口时，在注释中看到，建议在类里声明serialVersionUID变量，不然自动生成的serialVersionUID很容易出问题。

因为默认的serialVersionUID是jdk生成的，不同版本jdk可能生成的值不同，
看名字应该能猜到serialVersionUID是序列化版本的标志，如果序列化数据的serialVersionUID 和对应类的serialVersionUID 不一致，就会导致反序列化失败。

java反序列化

首先看下反序列化代码

class Person implements Serializable{    public String name;    public int age;    Person(String name,int age){        this.name = name;        this.age = age;    }}public class Main {    public static void main(String []args) throws IOException, ClassNotFoundException, NoSuchMethodException, InvocationTargetException, IllegalAccessException, InstantiationException {        FileInputStream in =new FileInputStream("person.txt");        ObjectInput obj_in = new ObjectInputStream(in);        Person p = (Person) obj_in.readObject();        System.out.println(p.name);    }}

成功将上面序列化的对象读出，

和上面的代码区别只是把Output换为了Input，把writeObject换为了readObject。
这也很好理解，把单向流出的水管换为单向流入的（Output换为Input），然后把写入数据的writeObject换为readObject，即：序列化数据person.txt->File类型水管->Object类型水管->Object对象。
（Person）这个用法是强制类型转换，将Object转Person类型，

再调试下，看java如何从一个二进制的序列化数据，恢复为java对象的，

首先读取了二进制的第一个字节，如果不是0x73，即10进制的115，就抛异常。

根据变量名TC_OBJECT可以猜出，0x73标志着数据是Object类型。
继续调试

发现然后又读了一个字节x72，对应变量TC_CLASSDESC，是类的描述：

然后读出类名和suid（对应serialVersionUID）。

后面有继续读出了classDescFlags、Fields等信息，不一一调试了。
对应数据如图：

这一步读出了类的所有信息，储存到ObjectStreamClass类型对象desc中，

接下来desc又newInstance()，创建了一个对象obj。

这个newInstance()是不是很熟悉？
在学反射时知道，Class类、Constructor类都有newInstance()方法。
看一下ObjectStreamClass类的newInstance()方法，
发现，newInstance调用的是类成员变量cons的newInstance方法。

private Constructor<?> cons;

所以在这一步，通过调用Object类的无参构造函数，创建了obj对象，这个对象有Person类的所有属性

继续调试，调用了方法。

readSerialData(obj, desc);

看起来是将读出的序列化数据赋值给对象，
然后继续调试，跟了很久。

putObject又是个native方法，将键值赋值给obj对象，
这也就能解释的通，为什么在反序列化时，java不会发出警告。
因为如果通过反射修改private成员函数值，java会发出警告，
正常反射修改private变量会发出警告，如图：

可以利用下吗？
执行下面代码试下：

Unsafe unsafe = Unsafe.getUnsafe();Person p = new Person("z3",12);unsafe.putObject(p, 16, "z5"); // 至于第二个参数为什么是16，不知道，调试时发现java就这么调的，可能16是"name"的一个标志？System.out.println(p.getName());

报错

好吧，先不管它了，估计是用不了。

忘了说，调试时发现readSerialData方法，它会递归的反序列化当前对象的所有成员变量。

所以，总结，java在反序列化时，是递归的，将对象反序列化，对象的成员变量反序列化，对象的成员变量的成员变量反序列化。
一层层递归调用，直到基本变量，然后一层层再出来，完成最外层对象的反序列化，整个过程是由内向外的。
例如对象A里包含对象B，对象B包含对象C，C包含一个数字1，
将A序列化后，再反序列化的过程是，先打开A，发现A里有B，则再打开B，发现B包含C，再打开C，发现C里有1，则读取出1，完成C的反序列化，再把这个C给B，完成B的反序列化，再把B给A，完成A的反序列化。
这个过程特别像把对象A一层层扒开，直到遇到基本变量，然后开始由内向外反序列化，

现在知道反序列化过程了，读出序列化的数据，创建一个空的对象，再调用native方法，为对象赋值。

java反序列化利用（URLDNS）

现在了解了序列化与反序列过程。
怎么利用呢？

序列化是将对象里的成员变量序列化，进行传输，另一端收到序列化数据后，反序列化得到对象，

在这个过程中，反序列化的数据有可能会被拦截，修改，

所以就是说，反序列化数据可控，也就是对象的的成员变量可控。
在之前的文章中提到过，对象的方法执行过程是有可能成员变量影响的，而成员变量可控，那就有希望通过构造成员变量，控制方法的执行。

怎么通过控制对象的成员变量影响方法的执行呢？
首先，我们可控的只有变量的值，所以，想执行代码或命令，只能靠java自带的类方法，则需要寻找java可以被利用的类。

看下面这个代码

先调用genURLDNS函数，生成序列化对象，保存到文件out.bin中，

之后，每调用一次getURLDNS函数，都会从文件读取序列化数据，然后反序列化，然后导致本机发出一条dns请求。

这个out.bin就是构造好的恶意序列化数据，也可以叫做payload，作用是可以控制机器向指定地址发出一条dns请求，

那就调试下反序列化的过程，看看什么原因造成的。
readObject之前已经调试过了，但是忽略了一个点，
在readSerialData方法中调用了invokeReadObject，而在invokeReadObject函数中，判断了当前类是否有readObject方法，如果有，则通过反射的方式调用该类的readObject方法（例如反序列化A类时，如果A类有readObject方法，那就按A类自带的readObject方法反序列化，如果没有，那就用默认的方式反序列化）。

而问题的产生，就在HashMap的readObject方法中。
这里调用了hash(key)

调用了key的hashCode方法

而key是URL对象，
看下URL对象的hashCode方法，首先判断hashCode，不为-1，则调用handler.hashCode。

继续向下跟

而getHostAddress过程中发现这一步骤

正是这句代码，导致了dns查询，

所以总结下，反序列化导致dns查询的过程，
ObjectInputStream的readObject方法 =》 HashMap的readObject方法 => 创建HashMap对象，并putVal(hash(key)) key是URL对象 =》 URL的hashCode方法 =》 URLStreamHandler的hashCode方法 =》URLStreamHandler的getHostAddress方法 =》 InetAddress.getByName方法。

这个就是造成dns查询的利用链，也叫做Gadget，

再回头看下代码，开始图片中标注的“这里先不看”。

看注释说明，是为了防止造成两次dns查询，
现在明白了URLDNS的利用链，分析下原因。
因为hashMap.put一个url对象时会调用，
putVal(hash(key))代码，而上面总结过hash(URL对象)会造成dns查询。

f是hashCode方法的对象，把url对象的hashCode的值改为非-1，然后put(url)，再把hashCode的值改回-1
回想一下“URL的hashCode方法”中，hashCode不为-1时，直接return，就不会有后面的dns查询了，利用链到“URL的hashCode方法”就断掉了。

而hashCode默认值就是-1，
所以通过这种方式，就可以避免在构造恶意序列化对象时，触发dns请求。

总结

造成反序列化漏洞的根本原因分析

序列化的内容只有类名和成员变量，所以可控点是，类名和成员变量的值。
通过控制类名、可以指定反序列化的类，通过控制变量的值，就可以影响代码执行流程。然后按照我们的期望，将这些“影响”连接在一起，就可以控制代码的执行。
例如本例中，
影响1：URL对象赋值了一个http://开头的url地址，导致它只要调用hashCode就会查询dns（如果不赋值一个http://开头的url地址，就不会查询）。
影响2：为HashMap赋值了一个URL对象，导致它在反序列化时，会计算URL对象的hash（如果不赋值，就不会计算hash）。
上面dns查询，计算hash，这两个动作，都是因为两个变量的值导致的，所以：控制变量的值，会影响代码的执行流程。

当一个影响产生了“动作”，就可以触发下一个影响，再触发下一个影响，最后达到预期效果：命令执行，而这些能搭配使用且能达到我们预期效果的“影响”们，就是利用链。
而这个“动作”来源，只能是类的readObject方法，因为默认的反序列化过程，只是简单的赋值，，变量的值不会对代码的执行造成任何影响，也就不会有利用链。
类自定义的readObject方法，初衷是为了反序列化出完整的对象（有些类很复杂，简单的赋值不能复原对象）。
但是这个readObject方法会受变量值得影响，产生“动作”，触发下一个“影响”。

这就像，每个类都是一个形状不确定的零件，当这个类被实例化后，对象的变量值确定了，这个零件的形状就固定了，不同的变量值，会导致零件形状不同。
而我们要做的，就是从java自带的这些不确定的零件中找出，固定形状后可以像多米诺骨牌一样，后一个可以推倒前一个的这种零件。
然后将这些零件按多米诺骨牌一样排列，最后一个零件倒下，就会按动致命令执行按钮，
只要第一个零件被推倒，就会引发后面一系列连锁反应，导致命令执行。
而推倒第一个零件的，就是readObject方法，因为它是唯一一个，在反序列化时，受变量值影响代码执行过程的函数，所以推倒第一个零件的动作，由它发出。

举报/反馈

小熊编tips

264获赞 895粉丝

网络安全工作者，热爱网络

关注