微立顶科技

新闻资讯

创新 服务 价值

  什么是敏感数据?企业是如何识别敏感数据的?

发布日期:2022/9/26 11:25:04      浏览量:

在以往的文章中,已经给大家科普过了“什么是数据脱敏”,“数据脱敏”中的“敏”就是指“敏感数据”。但什么是敏感数据?数据处理者又是如何识别敏感数据的呢?


什么是敏感数据?

敏感数据,是指泄漏后可能会给社会或个人带来严重危害的数据。同时,敏感数据又称隐私数据,包括所有不公开或未分类的信息,可能是组织需要保护的机密专有信息或因数据对组织的价值或组织为遵守现行法律法规而保护的人和其他类型的数据,例如个人身份信息(个人隐私数据)、受保护的健康信息、专有数据等。

1、个人身份信息

包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;

2、受保护的健康信息

也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、IP地址列表等;

3、专有数据

专有数据值得任何帮助组织保持竞争优势的数据。比如,开发的软件代码、产品的技术计划、内部流程、知识产权或商业秘密。

之所以要标识“敏感数据”,是为了保护数据安全。而为了区分不需保护的数据,受保护数据统称为“敏感数据”。敏感数据只有一个标准来衡量,即数据的可见度或敏感度。即,数据是否要保护——数据的可见度,谁可以访问(看)这个数据(数据敏感度)。

数据的可见度越低,数据的敏感程度(级别)越高。数据的可见度(敏感度)决定了在组织或企业内部什么权限的人员可以访问其敏感数据。

也因此,为了敏感数据安全,数据处理者如企业要对敏感数据进行脱敏,其目的在于通过隐藏敏感数据,以防止这些数据被滥用,提高数据安全性和保密等级,满足数据安全管控要求。


正如此前对“数据脱敏”的介绍,敏感数据脱敏有两种技术路线,一种是静态脱敏,另外一种是动态脱敏,再有可以通过数据资产梳理实现敏感数据发现,将数据库中的敏感数据进行变形处理,以实现敏感数据防泄漏。

而且,根据操作对象不同,数据脱敏操作通常包括两种形式,一种是结构化数据脱敏,比如数据库、数据库文件等进行静态和动态脱敏;另一种是非结构化文档脱敏,比如日常常见的Word、Excel、PowerPoint、TXT等文件进行脱敏。

上述内容阐述了“什么是敏感数据”,那么在数据流转过程中,企业这样的数据处理者是如何识别敏感数据的呢?

敏感数据识别是要发现系统中的敏感数据。在数据梳理的基础上,在有限的识别范围内,通过对敏感数据特征的分析,提炼出一套敏感数据特征库。利用特征库快速找出系统中的敏感数据,为后续数据分类分级奠定数据特征基础。

目前,敏感数据识别一般有2种途径:一是敏感数据智能识别,智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中;二是人工识别,基于现有技术,通过人工方式识别敏感数据,由数据库管理员根据个人经验对敏感数据进行查找和确定。

由于当下的数据大都有容量大,较为复杂的特点,而传统的利用人工进行梳理的速度较慢,远远不如利用机器进行识别效率高,并且同一人在不同时间对同一数据可能有不同的判断,不同人对相同的数据也有不同的判断,所以这就会使敏感数据在识别时产生的结果具有差异性。

人工识别敏感数据耗时、耗力、耗资,在人工智能大发展的当下,加之数据泄露和勒索软件攻击的数量将持续增长,大多数企业在保护敏感数据时,会选择智能识别。这使企业能够主动、大规模识别敏感数据和个人数据。一旦识别了这些数据,企业就可以选择编辑、删除、加密或采取任何必要的措施进行保护,以确保数据不会落入“不良人”的手中。

而数据分级分类,则是将识别后的敏感数据进行筛选,根据数据的价值、重要程度分门别类,根据数据使用过程中的敏感程度对数据进行分级,进而为不同级别的数据提供不同程度的安全防护。

其中,数据分类是指企业、组织的数据按照企业数据资产管理形式,对数据进行划分,这是个系统、复杂工程,更多的是与数据资产管理相关;数据分级则是从数据安全、隐私保护和合规的角度进行分级。

例如,按照客户信息的敏感程度划分为极敏感级、敏感级、较敏感级和低敏感级4个等级,并根据分类分级管控原则,确定不同敏感数据的安全管控要求及相应的涉敏人员范围。


敏感数据的识别与分类分级是数据安全的核心内容,通过对不同类型的数据进行甄别,识别其中存在的敏感数据,并对这些敏感数据进行分类定级处理,从而达到有针对性地对不同类型的数据实现分类保护。

另外,智能敏感识别包括三类智能算法——基于相似度、非监督学习和监督学习:

基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息;

基于无监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量;

基于监督学习算法则需收集一定数量的训练数据(如文档、图片),同时对数据进行人工打标签,如敏感/非敏感标签(二分类场景)。然后选择相应的监督学习算法,如支持向量(SVM)、决策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新的数据进行智能识别与预测,自动化输出数据类型——敏感/非敏感数据。



  业务实施流程

需求调研 →

团队组建和动员 →

数据初始化 →

调试完善 →

解决方案和选型 →

硬件网络部署 →

系统部署试运行 →

系统正式上线 →

合作协议

系统开发/整合

制作文档和员工培训

售后服务

马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     联系人:石先生/雷先生