数据防泄漏保护DLP

Posted by shentanli on February 05, 2021 · 1 min read

大多数快销行业例如化妆品、服饰等,往往拥有大量的用户数据,例如姓名/昵称、手机号、快递地址等。

有存储就有泄漏的可能。各大行业为了处理数据泄露事件(墙推下来自IBM Security的2020年度数据泄露报告,写的是真好,尤其在和其他年度报告对比后-.-)也是头秃,稍有不慎,稳坐的安全负责人就被换了…饭碗不保,措施得做到位呀!

提到泄漏,就有防泄漏保护。安全的发展历来就是魔高一尺道高一丈的过程!

泄漏的各手段这里先不赘述,本文主要了解下防泄漏DLP。

DLP全称Data Leakage(Loss)Prevention,即数据泄露防护。如何做到泄漏防护呢?——内容识别。通过识别内容,扩展到对数据的防控。

识别能力来自于哪里?——关键字、正则表达式、文档指纹、确切数据源(数据库指纹)、支持向量机等。

识别后还得准确地检测,如若不然,一堆误报或者漏报导致其渐渐失去利用价值(就像某些代码扫描系统=。=)。

为了确保检测的准确性,DLP 采用了三种基础检测技术——正则表达式检测(标示符)、关键字和关键字对检测、文档属性检测和三种高级检测技术——精确数据比对(EDM)、指纹文档比对(IDM)、向量分类比对(SVM)。

其中文档属性检测主要是针对文档的类型、大小、名称进行检测,类型检测是基于文件格式进行的,不是简单的基于后缀名。对于修改后缀名的场景,文件类型检测可以准确的检测出被检测文件的类型,目前支持100多种标准的文件类型,并且可以通过自定义特征,去识别特殊的文件类型格式的文档。

高级检测技术中的EDM用于保护结构化的数据,例如客户或员工数据库记录,IDMSVM用于保护非结构化的数据,例如Microsoft Word或PowerPoint文档。对于EDM、IDM、SVM而言,企业会先标识敏感数据,然后再由DLP判别其特征,以进行精准的持续检测。判别特征的流程包括DLP访问和检索文本及数据、正规化,并使用不可逆的打乱方式进行保护。

EDM允许根据特定数据列中的任何数据栏组合进行检测。也就是在特定记录中检测M个字段中的N个字段。它能够在“值组”或指定的数据类型集上触发;例如,可接受名字与身份证号这两个字段的组合,但不接受名字与手机号这两个字段的组合。

IDM则先要进行敏感文件的学习和训练,拿到敏感内容的文档时,采用语义分析进行分词,然后进行语义分析,提出来需要学习和训练的敏感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度去确认被检测文档是否为敏感信息文档。这种方法可让IDM具备极高的准确率与较大的扩展性。

SVM的基本思想是把训练数据非线性的映射到一个更高维的特征空间(Hilbert空间)中,在这个高维的特征空间中寻找到一个超平面使得正例和反例两者间的隔离边缘被最大化。SVM的出现有效的解决了传统的神经网络结果选择问题、局部极小值、过拟合等问题。并且在小样本、非线性、数据高维等机器学习问题中表现出很多令人注目的性质,被广泛地应用在模式识别,数据挖掘等领域。

SVM比对算法适合那些具有微妙的特征或很难描述的数据,如财务报告和源代码等。使用时先将文档按照内容细化分类,每一类文档集合有属于本类的意义,经过SVM比对,确定被检测的文档属于哪一类,并取得此类文档的权限和策略。

IDM和SVM的区别是,IDM将待检测文件的指纹和训练模型中的每一个文件进行指纹比对;而SVM是将待检测文件向量化,并归属到某一类训练集所建立的向量空间。

既然是泄漏防护,DLP还应具备防护能力。其防护范围包括网络防护和终端防护。网络防护主要以审计、控制为主,终端防护除审计与控制能力外,还应包含传统的主机控制能力、加密和权限控制能力。

说完了基本功,实际如何用呢?对于不同模型实体,DLP的配置及分布是不同的。

除了终端DLP产品外,所有其他DLP产品都是以服务器为基础。其中网络DLP产品常驻于DMZ中,而其他则常驻于企业LAN或数据中心。

DLP除了此种分类方法,还有按其发展的阶段性特点来分:

囚笼型:此阶段的产品主要特点为设备强管控,采用逻辑隔离手段,构建安全隔离容器
枷锁型:此阶段的产品主要表现为文档强管控,提供内容源头级纵深防御能力;数据文档的分类、分级、加密、授权与管理;
监察型:此类型的产品则是行为强审计,利用准确关键字对数据操作行为的审计,文档的新建、修改、传输、存储、删除的行为监察;
智慧型:此类型的产品则追求智能管控,可识别、可发现、可管理,提供共性管控能力。

参考: [1]DLP介绍