基于数据挖掘技术的加壳PE程序识别方法

来源：意榕旅游网

第３ｌ卷第７期　２０１１年７月　计算机应用　Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ａｐｐｌｉｃａｔｉｏｎｓ　Ｖ０１．３１　Ｎｏ．７　Ｊｕｌｙ　２０１１　文章编号：１００１—９０８１（２０１１）０７—１９０１—０３　ｄｏｉ：１０．３７２４／ＳＰ．Ｊ．１０８７．２０１　１．０１９０１　基于数据挖掘技术的加壳ＰＥ程序识别方法　赵跃华，张翼，言洪萍　（江苏大学计算机科学与通信工程学院，江苏镇江２１２０１３）　（ｚｈａｏｙｈ＠ｕｊｓ．ｅｄｕ．ｃｎ）　摘要：恶意代码大量快速的繁衍使得恶意代码自动化检测成为必然趋势，加壳程序识别是恶意代码分析的一　个必要步骤。为识别加壳可执行程序，提出一种基于数据挖掘技术的自动化加壳程序识别方法，该方法提取和选取　可移植可执行（ＰＥ）特征，使用分类算法检测ＰＥ文件是否加壳。测试结果表明，在使用Ｊ４８分类器时加壳文件识别率　为９８．７％。　关键词：可移植可执行文件分析；加壳识别；数据挖掘　中图分类号：ＴＰ３０９．５　文献标志码：Ａ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　ｐａｃｋｅｄ　ＰＥ　ｆｉｌｅｓ　ｂａｓｅｄ　ｏｎ　ｄａｔａ　ｍｉｎｉｎｇ　ＺＨＡＯ　Ｙｕｅ—ｈｕａ，ＺＨＡＮＧ　Ｙｉ，ＹＡＮ　Ｈｏｎｇ—ｐｉｎｇ　（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｊｉａｎｇｓｕ　Ｕｎｉｖｅｒｓｉｔｙ，Ｚｈｅｎｊｉａｎｇ　Ｊｉａｎｇｓｕ　２１２０１３，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｐｒｏｌｉｆｅｒａｔｉｏｎ　ｏｆ　ｍａｌｉｃｉｏｕｓ　ｃｏｄｅ　ｍａｋｅｓ　ａｕｔｏｍａｔｉｃ　ｍａｌｉｃｉｏｕｓ　ｃｏｄｅ　ｄｅｔｅｃｔｉｏｎ　ａｎ　ｉｎｅｖｉｔａｂｌｅ　ｔｒｅｎｄ．Ｐａｃｋｅｄ　Ｐｏｒｔａｂｌｅ　Ｅｘｅｃｕｔｂｌａｅ（ＰＥ）ｆｉｌｅｓ　ｉｄｅｎｔｉｉｆｃａｔｉｏｎ　ｉｓ　ａ　ｎｅｃｅｓｓａｒｙ　ｓｔｅｐ　ｏｆ　ｍａｌｉｃｉｏｕｓ　ｃｏｄｅ　ａｎａｌｙｓｉｓ．Ｔｈｅ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｅｄ　ａｎ　ａｕｔｏｍａｔｉｃ　ｉｄｅｎｔｉｉｆｃａｔｉｏｎ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ｄａｔａ　ｍｉｎｉｎｇ，ｔｈｒｏｕｇｈ　ｗｈｉｃｈ　ｆｅａｔｕｒｅ　ｗａｓ　ｅｘｔｒａｃｔｅｄ　ｆｒｏｍ　ＰＥ　ｆｉｌｅｓ．Ｔｈｅ　ｐａｐｅｒ　ｕｓｅｄ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ａｌｇｏｒｉｔｈｍｓ　ａｎｄ　ｓｅｌｅｃｔｅｄ　ｆｅａｔｕｒｅｓ　ｔｏ　ｄｅｔｅｃｔ　ｐａｃｋｅｄ　ＰＥ　ｆｉｌｅｓ．Ｔｈｅ　ｔｅｓｔ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｉｄｅｎｔｉｉｆｃａｔｉｏｎ　ｒａｔｅ　ｉｓ　９８．７％ｗｈｅｎ　ｕｓｉｎｇ　Ｊ４８　ｃｌａｓｓｉｉｅｒ．ｆ　Ｋｅｙ　ｗｏｒｄｓ：Ｐｏｒｔｂｌａｅ　Ｅｘｅｃｕｔａｂｌｅ（ＰＥ）ｆｉｌｅ　ａｎａｌｙｓｉｓ；ｐａｃｋｉｎｇ　ｄｅｔｅｃｔｉｏｎ；ｄａｔａ　ｍｉｎｉｎｇ　０　引言　近年来，恶意代码数量剧增，而恶意代码作者对恶意代码　的保护也逐渐增强，多态、加壳等方法的运用使得恶意代码识　别更加复杂，依靠传统方式分析恶意代码已经无法跟上病毒　发展速度，因此恶意代码的自动化识别被提上了日程，其中恶　意代码加壳　的识别是一个必要步骤。　现在的加壳ＰＥ（Ｐｏｒｔｂｌａｅ　Ｅｘｅｃｕｔａｂｌｅ）文件检测手段主要　有三种主要方式。第一种是特征码匹配，常见的工具如　１　特征抽取和筛选　１．１特征抽取　ＰＥ文件格式是Ｗｉｎｄｏｗｓ平台上可执行文件的标准格式。　在Ｗｉｎｄｏｗｓ系统中以ＥＸＥ、ＤＬＬ、ＯＣＸ、ＳＹＳ为后缀名的文件　都是ＰＥ文件。加壳一般是对ＰＥ文件进行加密或压缩的过　程。加壳后ＰＥ文件与原文件有很大的区别，但是仍然遵循　ＰＥ文件格式。　［二叵　［］　ＰＥＩＤ　，它可以识别上千种加壳程序，这些查壳工具对恶意　代码加壳识别率很低，需要事先添加各种壳的特征到特征库　中，常常滞后于壳的发展，因而无法识别新的或者少见的加壳　程序特征。第二种是ＰＥ文件信息熵，Ｌｙｄａ等人　提出一种　信息熵方式检测加壳ＰＥ文件，其原理是加壳后的ＰＥ文件相　对未加壳的混乱度增加，导致部分节的熵值增高，通过计算　ＰＥ文件各个部分数据的信息熵，然后根据熵值判断病毒文件　是否加壳，但是作者对整个ＰＥ文件计算熵，这并不能最明显　地反映其熵值变化。第三种方法使用ＰＥ文件头部属性，文　献［５］提出一种新型的壳检测工具，利用加壳前和加壳后的　ＰＥ文件头部属性不同来判断文件是否加壳，实验表明它的壳　检测实时性较高，但对于伪装壳的误报率和漏报率较高。　图１　ＰＥ文件格式　现在的研究中对ＰＥ文件结构信息使用较少，本文将充　分发掘ＰＥ结构特征，并将各项特征去除冗余和加以整理，最　后利用数据挖掘方法检测加壳文件，得到了较好的分类效果。　收稿日期：２０１０—１２—２０；修回日期：２０１１一Ｏ１—３０。　如图１所示，ＰＥ文件包含了一个ＰＥ文件头，一个节表，　然后是节表中所指向的节。／＇Ｅ文件头包含ＭＳ—ＤＯＳ桩、ＰＥ　标签、ＣＯＦＦ头（Ｃｏｍｍｏｎ　Ｏｂｊｅｃｔ　Ｆｉｌｅ　Ｆｏｒｍａｔ）和可选头。可选　基金项目：上海市信息安全综合管理技术研究重点实验室开放课题项目（ＡＧＫ２００９００４）。　作者简介：赵跃华（１９５８一），男，江苏苏州人，教授，博士，主要研究方向：信息理论与安全、通信安全；　张翼（１９８５一），男，江苏姜堰人，硕　士研究生，主要研究方向：信息安全、网络对抗；言洪萍（１９８５一），男，江苏常州人，硕士研究生，主要研究方向：计算机病毒与反病毒、驱动开发　与防火墙。　计算机应用　头包含了ＰＥ文件的重要信息，包括节的个数、堆栈大小等。　第３ｌ卷　中，壳的加载器需要在内存空间中恢复代码，所以加壳ＰＥ文　件中代码段有可写属性。另外，加壳ＰＥ文件的其他非代码　节也多为可写属性。　节表中包含节的大小、名称等。这些节的内容包括代码、资　源、数据等。本文根据对壳的先验知识，选取表１中的部分　ＰＥ结构信息作为初选特征。　表１　ＰＥ文件可用分类特征　１．２特征选择　ＰＥ结构信息中包括了大量信息，其中大部分不能用于识　别加壳ＰＥ文件。为了提高挖掘的工作效率和准确率，需要　将冗余信息去除。在本文中引人冗余特征消除的算法——主　成分分析（Ｐｒｉｎｃｉｐａｌ　Ｃｏｍｐｏｎｅｎｔ　Ａｎａｌｙｓｉｓ，ＰＣＡ）　，它将多个　变量通过线性变换以选出较少个数重要变量的一种多元统计　分析方法。　该方法的最优Ｊ生是从Ｎ个训练样本中提取ｍ个主要特征，　来达到降维的目的。假设ｎ个ｄ维的原始样本　。，　，…，　，组成　一个矩阵　其中ｘ的每一列为一个样本，主成分分析按照式　（１）中的线性变换把ｘ投影到低维空间中的向量ｙ。　Ｙ＝　Ｘ　（１）　式中ｗ（ｄ　ｙ（　）为经过ＰＣＡ变换后的样本特征。　首先求得样本均值“，并按照式（２）协方差矩阵Ｓ　。　Ⅳ　ｓｒ＝艺（　ｆ一　）（　ｌ—　）　（２）　然后按照式（３）计算ｓ　的特征值ｅ　，并由大到小排序。　Ａ　ｅ　：Ｓｒｅｆ；ｉ∈［１，Ｎ］　（３）　最后选择前ｄ　个特征值对应的特征矢量作为变换矩阵　Ｗ＝［Ｐｌ，ｅ２，…，ｅ　］。　本实验中使用向量空间模型来格式化数据，每个程序被　定义为一个６４维向量。提取所有的程序向量建立一个矩阵，　使用ＰＣＡ算法得到１１个特征的主成分系数大于８７％，可以　移除其余５３个冗余特征。　接下来把这１　１个特征深入分析，根据实际意义格式化特　征向量。　１）在默认条件下，编译器生成的ＰＥ文件会有调试信息，　但是加壳文件中基本不存在调试信息。　２）加壳ＰＥ文件的引入函数相对较少，并且都会有　ＧｅｔＰｒｏｅＡｄｄｒｅｓｓ和ＬｏａｄＬｉｂｒａｒｙ这两个函数。　３）文献［４］中使用整个ＰＥ文件的信息熵来判断ＰＥ文件　是否加壳，而根据本文统计得到的数据来看，加壳和未加壳　ＰＥ文件的熵值区间有很大的交集，而在统计数据中发现加壳　后的ＰＥ文件入口点所在节的熵平均值远远高出未加壳ＰＥ　文件人口点所在节的熵平均值，两个熵值区问相对，但是　仍然存在部分特殊的ＰＥ文件的入口点所在节表熵值异常，　所以入口点所在节的熵值不能作为唯一的判断依据，如图２，　通过计算得出加壳ＰＥ文件的入口代码段平均熵值为７．５７，　而未加壳ＰＥ文件平均熵值为５．７８。　４）节属性。在未加壳的ＰＥ文件中，代码段的属性没有　可写（ＩＭＡＧＥ—ＳＣＮ—ＭＥＭ　ＷＲＩＴＥ）的属性，而在加壳ＰＥ文件　５）节长度。编译器默认情况下生成的ＰＥ文件中不存在　长度为０的节，而在统计中发现被加壳的ＰＥ文件多数存在　长度为０的节。　６）另外，编译器生成的ＰＥ文件节名固定，经过加壳的文　件会出现非可见字符或其他的节名，特殊的节表名称等其他　属性都可以作为判断的依据。　０　５　１Ｏ　１５　２０　２５　３０　３５　文件大，＇ｂ／ＫＢ　图２加壳ＰＥ文件与未加壳文件熵值分布　通过整理，得到了表２中列出的各项特征。　表２筛选整理后ＰＥ特征描述　特征集描述　取值范围　调试信息　ＢＯＯＬ【０，１】　人口点所在节的熵　ＦＬＯＡＴ【０，８】　引入表函数个数　ＩＮＴＥＧＥＲ［０，∞）　节表名是否可见字符　ＢＯＯＬ【０，１】　节属性可执行且非代码　ＢＯＯＬ［０，１】　节表名是否编译器默认　ＢＯＯＬ［０，１］　所有节都没代码属性　ＢＯＯＬ【０，１］　ＳｉｚｅＯｆＲａｗＤａｔａ的和等于文件头中ＳｉｚｅＯｆＣｏｄｅ　ＢＯＯＬ【０，１】　入口点不在可执行节中　ＢＯＯＬ［０，１］　ＰＥ　ｓｉｇｎａｔｕｒｅ相对文件偏移为默认值　ＢＯＯＬ［０，１］　节属性可执行且可写　ＢＯＯＬ［０，１］　将每个ＰＥ文件用一个向量’，　表示，其中Ａ１２　用于　标识文件是否加壳，ｙ　定义如下：　ＶｐＥ＝（Ａ１Ｄ　ｂ　ｇＩ　，Ａ２１　ｐｏｎＴａｂｌｅｓｉ　，Ａ３Ｅ　ｓｅｃ【ｉ０　Ｅ呲　ｐｙ，　４ｓｅｃｔｉ。ｎＮ—ｖｉｓｌｂｌｅ，　５ｓｅｃｔｉ。ｎＡｔｔ　ｕｔｅ，Ａ６ＥｘｅｃｕｌａｂｌｅＤａｔａ，　Ａ７ｓ　ｔｉ。　Ｎ　Ａｂ　ｌ，Ａ８Ｎ。ｃ。ｄ　ｓｅ　ｔｉ。　，Ａ９Ｅ　ｔｒｖ　Ａ１０ｓ　ｓｉｚｅ０ｆＲ　Ｄ　【且Ｉ：ｓ　ｏｆｃ。ｄ。，　１１．Ｅｏ　ｔ，Ａ１２ｐ　ｋ　ｄ）　按照以上向量定义格式化所有实验数据，使其符合数据　挖掘工具要求，表３中给出了以上向量的部分实例。　表３部分实验数据　编号Ａ１　Ａ２　Ａ３　５　６　７　８　Ａ９　Ａ１０　ＡＩ１　ＡＩ２　０　０　２３　６．０６８　３４３　０　０　１　１　０　０　０　０　ｐａｃｋｅｄ　１　０　１８　６．０６８　３４３　０　１　１　１　０　１　１　１　ｐａｃｋｅｄ　２　０　２２　６．１７２０１９　０　０　１　０　１　０　１　０　ｐａｃｋｅｄ　３　０　１７　５．９４９３４２　１　０　１　０　０　０　０　１　ｐａｃｋｅｄ　４　０　４２　６．３２３　３７４　０　０　１　１　０　１　０　０　ｐａｃｋｅｄ　５　０　１２　６．１８４７５６　０　０　０　０　１　０　１　０　ｐａｃｋｅｄ　６　０　７７　６．２７７９６９　０　０　１　１　１　０　０　１　ｐａｃｋｅｄ　７　０　８９　６．２１５　８９８　１　１　０　０　０　０　０　１　ｐａｃｋｅｄ　８　０　３３　６．０２７７６４　１　０　０　１　１　０　１　０　ｐａｃｋｅｄ　第７期　赵跃华等：基于数据挖掘技术的加壳ＰＥ程序识别方法　１９０３　和　２验证分析　实验使用的数据集包括５５７８个ＰＥ文件信息，其中包括　从ＶＸ　ｈｅａｖｅａｎ　获取的２　８５５个加壳ＰＥ文件和从Ｗｉｎｄｏｗｓ　ＸＰ　系统中获取的２７２３个未加壳ＰＥ文件。为了获取ＰＥ特征，　使用ｐｅｆｉｌｅ　提供的ｐｙｔｈｏｎ库开发了ＰＥＷａｌｋｅｒ，ＰＥＷａｌｋｅｒ可　以获取包括ＰＥ文件中的结构信息、字符串信息、各节表的信　实验中把ＰＥ特征数据集分为不相交的训练集Ｓ　测试集ｓ　两部分，其中ｓ…　ｎ　Ｓ　：　，另外将训练集划　分为加壳程序集ｓ　ｓ　ｐ８ｃｋｅｄ　Ｓｔ　。　ｇ，和未加壳程序集ｓ　：　，且Ｊｓ　ｕ　Ｓ　ｋｅｄ　ｎ　Ｓｕｎｐ　１）训练集，包含Ｉ　８００个加壳ＰＥ文件和１　６００个未加壳　ＰＥ文件；２）测试集，包含１　０５５个加壳ＰＥ文件和１　１２３个未　加壳ＰＥ文件。　表４中测试结果表明，相对于Ｎａｔｉｖｅ　Ｂａｙｅｓ、ＭＬＰ、ＳＶＭ等　息熵等。实验使用Ｋｎｉｍｅｌｌｏ］作为数据挖掘平台，Ｋｎｉｍｅ提供　了ＳＶＭ、Ｎａｉｖｅ　Ｂａｙｅｓ、ＭＬＰ、Ｊ４８等分类算法，由于篇幅所限，本　文只给出Ｊ４８分类器的流程。　分类器，Ｊ４８分类器有较好的识别率和误报率，对壳的识别准　确率达到了９８．７％，可以对加壳ＰＥ文件作出有效判断。　Ｄｅｃｉｓｉｏｎ　Ｔｒｅｅ１￣ａＹｎｅｒ　ｖｉｅｗ　ｄａｔａ　图３　Ｋｎｉｍｅ搭建的分类工作流程　表４测试结果　通过图４的ＲＯＣ（Ｒｅｃｅｉｖｅｒ　Ｏｐｅｒａｔｉｎｇ　Ｃｈａｒａｃｔｅｒｉｓｔｉｃ）曲线　可以看出在本实验中ＭＬＰ和ＳＶＭ分类器得到了相近的分类　效果，而Ｎａｉｖｅ　Ｂａｙｅｓ分类效果最差。Ｊ４８分类器在误报率为　０．３％时得到了最好的检测效果。　１．０　试信息、节属性等结构信息作为特征，并使用ＳＶＭ、Ｎａｉｖｅ　Ｂａｙｅｓ、ＭＬＰ、Ｊ４８等分类算法，实验表明Ｊ４８分类器在检测加　壳ＰＥ文件得到了较好的检测效果，弥补了基于特征码的ＰＥ　文件加壳检测的不足，目前的缺点是不能检测壳的种类。后　期的工作是进一步提高检测率，降低误报率，增加壳类型检测　功能，并利用导出的语义化规则建立加壳ＰＥ文件检测系统。　参考文献：　［１】　于淼，孙强．对加壳技术的改进：超粒度混杂技术［Ｊ］．计算机应　用，２Ｏｏ４，２４（８）：１３７—１３９．　０．９　碍Ｏ・８　黯　【２】　庞立会．ＰＥ文件动态加壳技术的研究与实现［Ｊ】．计算机工程，　２００８，３４（１９）：１６６—１６８．　０．７　０．６　【３］ＰＥＩＤ－【ＣＰ／ＯＬ】．［２０１０—１２—０５］．ｈｔ【ｐ：／／ｗｗｗ．ｐｅｉｄ．ｉｎｆｏ．　［４］ＬＹＤＡ　Ｒ，ＨＡＭＲＯＣＫ　Ｊ．Ｕｓｉｎｇ　ｅｎｔｒｏｐｙ　ａｎａｌｙｓｉｓ　ｔｏ　ｆｉｎｄ　ｅｎｃｒｙｐｔｅｄ　０。５　０　ａｎｄ　ｐａｃｋｅｄ　ｍａｌｗａｒｅ［Ｊ］．ＩＥＥＥ　Ｓｅｃｕｒｉｔｙ　ａｎｄ　Ｐｒｉｖａｃｙ，２００７，５（２）：　０．００ｌ　０．００２　０．００３　０．００４　０．００５　０．００６　４０—４５．　误报率　［５】　ＣＨＯＩ　Ｙ　Ｓ，ＫＩＭ　Ｉ　Ｋ．ＰＥ　ｆｉｌｅ　ｈｅａｄｅｒ　ａｎａｌｙｓｉｓ－ｂａｓｅｄ　ｐａｃｋｅｄ　ＰＥ　ｆｉｌｅ　图４误报率和检测率　ｄｅｔｅｃｔｉｏｎ　ｔｅｃｈｎｉｑｕｅ【Ｃ】／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｉｔｓ　Ａｐｐｌｉｃａｔｉｏｎｓ．Ｎｅｗ　Ｙｏｒｋ：ＩＥＥＥ．２００８：　２８～３１．　以下为Ｊ４８分类器中的部分分类规则：　Ｉｆ　ＤｅｂｕｇＩｎｆｏ＝１　ａｎｄ　ＩｍｐｏｒｔＴａｂｌｅＳｉｚｅ＞３６　ａｎｄ　ＥｘｅｃｕｔａｂｌｅＤａｔａ＝０：ＵｎｐａｃｋｅｄＦｉｌｅ　［６】　王正群，邹军，刘风．基于集成主成分分析的人脸识别［Ｊ】．计算　机应用，２００４，２８（１）：１２０—１２４．　Ｉｆ　ＳｅｃｔｉｏｎＮａｍｅＶｉｓｉｂｌｅ＝０　ａｎｄ　ＳｅｃｔｉｏｎＮａｍｅＡｂｎｏｒｍａｌ＝１　ａｎｄ　ＳｅｃｔｉｏｎＡｔｔｒｉｂｕｔｅ＝１：ＰａｃｋｅｄＦｉｌｅ　ｆ　ＥｎｔｒＩｙＳｅｃｔｉｏｎＥｎｔｒｏｐｙ＞５．８　ａｎｄ　ＥｎｔｒｙＰｏｉｎｔＮｏｔｌｎＣｏｄｅＳｅｃｔｉｏｎ＝１：ＰａｃｋｅｄＦｉｌｅ　［７］　朱明旱，罗大庸，易励群．一种广义的主成分分析特征提取方法　【Ｊ】．计算机工程与应用，２００８，４４（２６）：３８—４０．　【８】ＶＸ　Ｈｅａｖｅｎｓ［ＥＢ／ＯＬ］．［２０１０—１２—０５】．ｈｔｔｐ：／／ｖｘ．ｎｅｔｌｕｘ．ｏｒｇ．　ｆ９］ｐｅｆｉｌｅ［ＣＰ／ＯＬ】．［２０１０—１２—０５】．ｈｔｔｐ：／／ｃｏｄｅ．ｇｏｏｇｌｅ．ｃｏｒｎ／ｐ／　ｐｅｆｉｌｅ．　３　结语　本文对加壳ＰＥ文件进行深入研究，使用ＰＥ文件中的调　【１０】Ｋｎｉｍｅ［ＣＰ／ＯＬ］．［２０１０—１２—０５］．ｈｔｔｐ：／／ｗｗｗ．ｋｎｉｍｅ．ｏｒｇ．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文