如何利用人工智能和自动化大规模识别敏感数据_机房360

摘要：TextIQ首席执行官ApoorvAgarwal在行业媒体采访时谈到了非结构化数据对组织的风险，以及利用人工智能和自动化大规模识别敏感数据的机会。

TextIQ首席执行官ApoorvAgarwal在行业媒体采访时谈到了非结构化数据对组织的风险，以及利用人工智能和自动化大规模识别敏感数据的机会。
　　
　　当组织试图解决漏洞和勒索软件攻击时，他们忽略了隐藏在数据中的敏感信息。这其中的主要原因是什么？
　　
　　理想情况下，组织应该掌握敏感信息在其数据中的位置。一般来说，公司最终会将收集的信息保留很长时间，即使这些信息没有实际用途。我认为问题可以归结为更广泛的数据治理问题。
　　
　　如果没有某种程度的自动化，就不可能有强大的数据治理；例如，企业生成的数据量正呈指数级增长，依赖于人类对隐藏在其数据库中的所有未被发现的敏感信息进行评估，而且通常情况下，非结构化格式根本无法大规模工作。
　　
　　数据泄露和勒索软件攻击将继续发生，但组织有真正的机会利用AI，这使他们能够主动识别大规模的敏感和个人数据；一旦确定了数据，他们可以选择编辑、删除、加密或采取任何必要的步骤来保护数据，以确保数据不会落入坏人之手。
　　
　　非结构化数据是如何构成风险的，可以采取哪些措施？
　　
　　首先，高达80%的企业数据是非结构化的——其攻击面的巨大规模使其非常容易成为不良行为者的目标。其次，这种非结构化数据充满了所有类型的敏感信息：商业秘密、个人信息、健康信息、知识产权等；例如，没有人构建一个包含组织商业秘密的结构化数据库——它更可能分散在电子邮件、聊天、Excel表格和其他形式的非结构化数据中。
　　
　　非结构化数据带来的挑战是数据量巨大，找到其中的敏感信息就像大海捞针。寻找那些危险和敏感的针头需要可伸缩的机器学习技术。
　　
　　自动化是唯一的出路还是人的因素仍然有价值？
　　
　　嗯，我认为数据的增长速度明显快于人口增长速度。没有足够的人力，一天中没有足够的时间完成任务的数量和复杂性。
　　
　　我认为还需要注意的是，机器并不是一个你只需按下一个按钮就能自动完成这些任务的地方。他们确实需要人类的帮助。这项工作不能单靠机器或人来完成。
　　
　　你能解释一下人工智能是如何识别和保护敏感信息的吗？
　　
　　它不保护敏感信息，而是识别敏感信息。一旦确定了它，组织就可以通过删除、编辑、加密或更改对它的访问控制来保护它。
　　
　　挑战在于身份识别本身。在身份识别方面，现状是基于过时的方法和技术——RegEx，搜索词。这些劳动密集型方法除了速度慢、可扩展性不强外，产生的结果可能会被错误所困扰。
　　
　　但并非每个9位数字都是SSN。另一方面，人工智能可以查看信息的更大上下文，以更准确地确定一条信息是否敏感。作为一个例子，考虑电子邮件。当分析敏感信息的电子邮件时，AI有能力考虑上下文，诸如谁写的、谁消费的、谁被复制到它以及电子邮件链中的人之间的关系网络，以确定电子邮件的一部分是否敏感。
　　
　　现在，理论上，人类可以对所有这些环境进行三角测量，但世界上没有足够的人类来完成这项工作；此外，人类不擅长计算任务，他们更擅长抽象思维。
　　
　　企业保护数据的方式会对其整体业务和声誉产生重大影响。您认为企业对此有多了解？您认为他们应该改进什么？
　　
　　他们非常清楚这一点。没有任何组织认为它完全不受数据泄露的影响。这在董事会层面是最重要的。
　　
　　他们可以改进的地方在于：长期以来，他们一直依赖于数据丢失预防、搜索术语和手动审查。他们真的需要转向并利用AI等新技术。
　　
　　编辑：Harris

JIFANG360.com - 机房360

如何利用人工智能和自动化大规模识别敏感数据