大数据环境下的敏感数据治理

黑客接单访客2021-10-11 14:12:007472A⁺A^-

随着网络技术的快速发展，大量数据在各种业务活动中产生，数据价值越来越凸显，在商业策略、社会治理和国家战略制定过程中，数据都起到了重要的决策支撑作用。甚至有一种说法是，目前处于数据驱动型经济中，如果无法分析当前或未来的趋势，任何组织都无法生存下去，抢夺数据已经成为决定下步行动方案的关键。

为了保证企业、组织和国家机关数据安全性，应该对数据进行有效分类，避免一刀切的控制方式，而应采用更加精细的管理措施，使数据资产在共享使用和安全使用之间获得平衡。敏感数据，或者叫做敏感信息就是一类特殊的数据类型，需要采用特殊的手段进行管理。

一、敏感信息保护的重要性

大数据时代，所有数据都具有了一定的价值。企业在获得了大量的个人数据之后，他们会利用人工智能等技术来处理、分析数据，并且挖掘出有价值的信息，然后根据这些信息来促进业务的发展。价值的背后潜藏着巨大风险，大量敏感数据被贩卖、窃取和无授权滥用，这一问题已经严重危害到个人隐私、企业发展甚至国家安全。

2019 年 1 月，一桩被称为 “Collection＃1” 的 “史上规模最大公共数据泄露事件” 遭到了曝光，包含将近 7.73 亿个独立电子邮件地址、2122 万多个独立密码。据调查，此次曝光的内容仅是冰山一角，Collection #1 的文件大小约为 87GB，而整个信息合集的总量是这个数字的十倍之多。2018 年 1 月，印度 10 亿公民身份数据库 Aadhaar 被曝遭网络攻击，该数据库除了名字、电话号码、邮箱地址等之外还有指纹、虹膜纪录等极度敏感的信息。

除了隐私和商业秘密之外，一些 “公开” 数据开始展现出新的面貌和价值，越来越多的计算资源被用于从非涉密数据中提炼敏感信息，获取涉密内容和重要情报，这更应引起高度警惕：2017 年 11 月，美国一款记录健身者运动轨迹的软件——Strava，用两年时间积累的用户数据，制作发布了一幅 “全球运动热力地图”。2018 年 1 月 28 日，一名 20 岁的澳大利亚学生纳森·鲁泽研究这份热力图后，通过分析特定区域的一些运动轨迹，找到了美俄等国设在叙利亚、伊拉克和阿富汗等国的基地，有的从未向外界公布过。纳森·鲁泽公布他的 “发现” 后，越来越多的基地通过这种途径被 “挖掘” 出来，其中包括美国中情局在索马里摩加迪沙的基地、俄罗斯在叙利亚的赫梅米姆空军基地等。而且，从热力图的轨迹中，能看到的不仅仅是基地的位置，基地内部的人员轨迹也清晰可见，专业人士可以从中研究出这些军事设施的运转方式。

电子政务、互联网、物联网等领域已经产生海量数据，并且在国家大数据战略下流转，但目前这些数据基本处于 “裸奔” 状态，面临数据泄露的威胁。大量非密、敏感的信息碎片在高技术深窃密的帮助下可以聚合、叠加形成影响国家安全的涉密信息。对数据进行有选择性地保护是政府控制信息的传统方法，大数据时代此法可能不再奏效，这就要求重新审视需要保守的国家秘密范围，对一些通过大数据分析有可能被准确预测，且确实关系国家安全的敏感信息，要研究如何识别和管理，并切断获取、分析和预测的途径。

二、敏感信息定义

那么什么是 “敏感信息” 呢？维基百科对 “敏感信息” ( Sensitive Information) 的定义为：丢失、滥用、变改或未经许可存取会损害个人隐私或利益、商业秘密 (the Privacy or Welfare of an Individual， Trade Secrets of a Business)，甚至国家的安全和国际关系 (the Security and International Relations of a Nation) 的信息。其将 “敏感信息” 分为涉及企业秘密、国家安全两大类。Techopedia 将敏感信息定义为 “特定人群有权知悉的专有信息 (Privileged or Proprietary Information)”，也称为 “敏感资产 (Sensitive Asset)”。

1. 敏感信息界定时的地域、文化差异

实际上关于如何鉴定和分类 “敏感数据” 这一核心问题，不同国家、区域在界定过程中存在很多差异。

首先，依据伊兹欧尼的观点，“测定数据的敏感程度应当反映所在社会的价值观”，敏感数据的判断标准受到该社会特定规范性文化的影响。但即便是文化传统相似的欧盟成员国之间依然存在一些差异，例如，在一些欧盟国家，“照片可被用来区分公民的民族/种族”，因而被视为敏感数据，而欧盟数据保护工作小组 (The Working Party) 并不将网络照片归为敏感一类。

其次，即便是在同一个同家、州或城市，不同的法律或部门也可能对同一类数据的归类不尽相同。以美国为例，《金融隐私权法》规定，客户的金融信息、银行账户信息被视为高度敏感数据，美国联邦贸易委员会 (FTC) 公布的五大敏感数据也包括财务信息，但HIPAA法案却将其排除在外。

再者，同一文化或社会中，敏感数据的标准还会随着时间而改变。不同年代的人有着不同的隐私期待或判断标准。

综上不难看出，对于敏感数据，企业和组织、甚至国家层面都要针对自身性质以及业务情况，制定更符合实际情况的分类。

2. 美国对敏感信息的管理

美国把 “敏感但非密信息” 称为 “受控非密信息 (简称CUI)”，目前根据适用法律、法规和政府政策进行保护或传播控制的信息，分为仅供官方使用信息、执法敏感信息、国防部受控非密核信息、限制分发信息、国务院敏感非密信息、缉毒署敏感信息、外国政府信息和技术文件分发声明八类。

2018 年 7 月，美国信息安全监督办公室 (ISOO) 公布了《2017年美国保密管理年度报告》，美国信息安全监督办公室主任布拉德利在这份报告中的第六部分着重分析 “受控非密” 信息管理情况，69 页的报告中 “受控非密” 信息的分析内容就达 3 页，其中对存在问题的分析超过 1 页，足见对此项问题的重视程度。

美国一方面开始重视敏感信息的管控，一方面安排以国家安全局为代表的安全情报领域建立新的情报获取方式，逐渐从秘密情报 ( Covert Intelligence) 向公开情报 (Overt Intelligence) 获取偏重，以商务合作、文化交流、科研访问、社会调查等合法形式为掩护，通过新闻媒体、跨国公司、调查咨询机构和非政府组织实施方式更加隐蔽的情报窃密行为，通过搜集和分析全球范围内的媒体、网络、政府公开数据、专业学术出版物、商业数据、灰色文献，为国家安全、行政执法领域的分析人员提供涉密、非密以及专有情报服务。

3. 我国对敏感信息的界定及其分类

对于个人来说，敏感信息涉及个人隐私，按照我国国家标准《GBT 35273-2017 信息安全技术个人信息安全规范》解释来说，是指一旦泄露、非法提供或滥用可能危害人身和财产安全，极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。通常情况下，14 岁以下（含）儿童的个人信息和自然人的隐私信息属于个人敏感信息。

对于企业或一个组织来说，敏感信息包括客户资料、技术资料、重大决策信息、主要会议纪要、财务预算信息和各种财务报表等高价值数据，这些数据以不同形式存在于企业资产中。

对于国家政府部门来讲，敏感信息是介于保密信息与公开信息之间的特殊信息，这类信息不符合定密标准，不能按照国家秘密的形式进行保护，但是如果公开，却有可能造成某种损害或潜在损害，因此需要限制公开或控制其传播。2017 年 5 月 24 日，全国信息安全标准化技术委员会秘书处发布了国家标准《信息安全技术大数据安全管理指南》征求意见稿中提到：“组织应对已有数据或新收集的数据进行分级，数据分级时需要组织的业务部门领导、业务专家、安全专家等共同确定。政府数据分级参照 GB/T 31167-2014 中6.3执行，将非涉密数据分为公开、敏感数据”。

三、Cisco敏感数据安全管理框架

Cisco 通过一系列收购，在网络安全行业迅速崛起，安全业务已经成为思科最重要的利润增长点，通过将安全功能内置到其全系列产品中，Cisco 提高了其产品本身的竞争力，另一方面也对独立安全厂商业务形成了巨大的挤出效应。类似 Cisco 产品这样的一体化集成平台显然是未来安全产业的一个重要发展趋势。

本文就从 Cisco 对敏感数据的分类管理框架出发，看 Cisco 敏感数据管理的思路方法。

下面几个问题是解决敏感数据安全保护需要关注的核心内容：

什么是敏感数据？谁拥有数据，谁又将对这些数据负责？
如何对数据进行敏感性分类？
数据的敏感性识别与什么相关？

Cisco 敏感数据安全管理框架从一定程度上提供了解决上述问题的思路。

1. 敏感数据分类

Cisco 公司建立了数据分类框架 (Data Classification Framework)，将数据划分为四个大类，按照敏感性程度由高到低，分别是：

受限 (Restricted）
高度机密 (Highly Confidential）
机密 (Confidential）
公开 (Public）

对于会接触到敏感数据的人群，Cisco 公司也进行了明确的分组，分别是数据所有者/受托人 (Data Owners / Trustees)，数据保管人 (Data Custodians)，以及数据用户 (Data Users)。不同组人群接触到的分类数据也不同。

Cisco 数据分类框架及对应接触人群

2. 敏感性分类管理策略

前面提到，对于任何企业或者机构而言，数据安全策略的执行取决于对数据的准确分类。Cisco 公司构建了金字塔型的数据应用生态系统，分别制定了数据所有者指南、组织级指南和企业级指南来实施数据管理 (Data Stewardship)，一旦实施分类准则出现冲突或者难以界定的情况时，将按所遵从指南的等级高低进行评判。

Cisco金字塔型的数据应用生态系统

以程序源代码的敏感级别判别过程为例：

一般说来，程序源代码判别应遵循企业级指南，默认情况下，工程源代码会被归类为高度机密。但是在组织级指南中有规定，关键或新兴项目源代码要被归类为受限，也就是说拥有更高的敏感程度。同时，数据所有者指南指出，Skyjet 项目源代码应归类为高度机密，但 I/O board FPGA 项目源代码实际上归类为机密。

因此，虽然都是源代码，但是按照指南的等级，Skyjet 项目源代码和 I/O board FPGA 项目源代码分别会被分类为高度机密和机密。

3. 数据的敏感性识别方法

可以确定的是，数据的敏感性识别绝对不是孤立的一环。实际上，数据发现、数据图谱、数据分类等众多领域在识别数据敏感程度方面都可能发挥着重要作用，我们需要将这些方法协同起来形成一致性推断结果。

Cisco 提出了一种基于用例方法的数据应用场景分类模型，这种模型能够有效地将用户分类判断和自动化分类判断联合起来。

基于用例的数据应用场景分类模型

Step1：构建决策/场景模型 (Building decision/context models）

(a) 识别正确的处理和数据保护单元

从元素层面上说，针对已识别的敏感元素要有效地设计和实施安全和保护控制；

从类别层面上看，在数据风险和合规要求的法律、合同和监管理解方面应该是有效的；

对象和聚合级别上，对于记录和文档级安全性和数据保护应该是高效的，并且有助于了解批量数据的价值；

在系统和实例级别上，对相对风险优先级和支持灾难（事件）响应计划（流程）有效。

在不同层级上识别正确的处理和数据保护单元

(b) 识别用于数据场景提取的正确数据对象

比如公司的收入数据，可能会以非常多的形式存在，比如 Word，Excel，TCP包，数据库文件等等，这些数据都是以非常具体的形式存在的，但这种具体化无形中会增加分类的复杂性，在这种情况下，需要对其进行抽象，所有与收入相关的数据，无论其形式、存储位置和表达方式，都应该归为收入类数据。

从不同数据场景提取数据对象

可以根据以下业务相关性(业务定义的属性)，识别适合场景分类的数据对象，

任务关键度
数据量
用户数量
个人验证信息或非个人验证信息

并非所有数据对象都适用于场景分类，比如静态数据分类和错误的数据处理或保护单元。

Step2：提取场景——问正确的问题

数据分类时依据的问题

为了更好的提取场景，需要明确一些问题，包括数据的特殊属性、数据使用和产生的相关修改、存储库/实例属性、聚集和时间敏感度、数据类别的含义、个人信息的适用性、风险和影响分析等等。

Step3：与数据所有者一起构建模型

在做好了所有的准备之后，和数据所有者一起按照如下的流程构建模型，将数据分为低敏感性、中等敏感性和高度敏感三类。

数据分类模型构建流程

Step4：保留场景并实施正确的控制

需要提出一个全面的业务解决方案来支持 “使用前分类”模式。

数据必须在使用前就被良好的分类；
如果有可能的话，数据应该在创造时就被分类；
分类级别必须不断调整以反映业务场景的变化。

有三个关键活动定义了分类解决方案:

Step5：整体解决方案

Cisco敏感数据管理整体解决方案

Cisco 敏感数据管理通过对多源头（已淘汰的、动态运行的、使用中的和在线系统和设备）数据信息的发现、识别（借助数据识别和存储的数据全景图来实现）、基于场景的分类和标记工作，最终完成数据的分类认证标记工作，形成有效载荷或者源信息、元数据、应用或文档来用于实施输入控制。

四、我国敏感信息监管产品的发展趋势展望

Cisco 通过建立敏感数据安全管理框架，可以实现自动化的敏感数据分级评估和监管模式。根据特定场景下的成本和效率统计，未建立起敏感数据管控系统的情况下，依赖人工完成数据分类、打标签和分析的成本是建立系统后自动分析成本的 100 倍以上，时间是自动分析的 3500 倍。

“Cisco模式” 关注焦点是敏感数据的分类，并没有太多涉及分类后控制管理工作。中孚对敏感信息实时监管系统的设计理念与 “Cisco模式” 有同有异，对比如表1：

中孚敏感信息实时监管系统设计理念与 “Cisco模式”异同点对比

在我国国家政策的大力支持下，大数据应用正在引领各垂直化领域变革，这种趋势下，数据流动将产生越来越多的价值。然而数据的使用也是一把双刃剑，只要数据处于流动的过程中会存在敏感数据泄露的风险。要提高数据的使用价值，避免敏感信息泄露产生的不良后果，这就需要像 Cisco 一样，规范和建立敏感信息分级保护机制，并搭建高效的敏感数据安全管理体系。

目前国内敏感信息监控产品大多还将功能定位在特定信息的检查和流通渠道的管控上，尚未形成一套支撑大数据环境下敏感信息综合监管的有效体系。我们认为，为了更好的保护国家、企业和个人的数据资产，国内的敏感信息监管产品厂商需要对数据状况进行深入研究，特别是数据的类型化、层级化研究，同时应树立起一种意识，那就是敏感信息管理不是简单依靠一套产品就能够解决的，而应该通过产品引导客户建立敏感数据安全管理的理念，形成适用于自身组织特点的数据分级和管控体系，这才是国产敏感信息监管产品今后一个阶段的发展方向。

具体来说，整个敏感信息监管体系应该遵循以下流程建立：

1）帮助客户甄别其组织内部的敏感数据

客户所需要管控的敏感信息类型很多，可能涉及个人隐私、企业商业秘密、政府部门甚至国家数据资产，应该在不同客户数据资产类型对数据进行梳理，定义不同敏感信息的类别和级别，进行数据标签化。

以网络运营商此类企业管理的数据类型为例，可能包括网络用户身份相关数据、用户服务内容数据、用户服务衍生数据和运营管理数据等，这些数据根据对第三方价值和泄露后产生的后果可以进行分级，表2是运营商客户数据敏感性分级定义。

某网络运营商敏感数据分级：

针对不同敏感级的数据应该计划采用不同的管控措施。

2）从客户信息类型出发，识别与内部、外部敏感客户信息相关的信息系统与部门岗位，绘制敏感信息的分布视图。

识别过程

对被监控端所有文档的编辑工作进行监控，根据策略自动分析文档的敏感性，在发现文档高敏感级甚至是可能涉密的情况下，完成识别。目前中孚的敏感信息实时监管产品通过深度语义分析、关键字自动抽取、图像识别和文件指纹信息识别等手段实现高效识别，同时在识别后还能屏蔽该机网络功能，防止泄密行为发生，同时向主管部门及相关领导报警，供日后查证。