摘要:人类偏见对几乎所有决策模型都是一个重大挑战。在过去的十年里,数据科学家坚定地认为,人工智能是解决人为偏差问题的最佳解决方案。不幸的是,随着机器学习平台的普及,这个前景被证明是非常乐观的。 |
任何人工智能解决方案的可行性都基于其输入的质量。数据科学家发现机器学习解决方案受制于他们自己的偏见,这可能会损害数据和输出的完整性。
这些偏见如何影响人工智能模型,数据科学家能采取什么措施来防止它们呢?
机器学习偏见的成本
由于多种原因,机器学习偏见可能无法被发现。对这些问题缺乏关注,其中包括:
•许多人认为机器学习算法是可靠的。他们预计不会有消耗人类的固有偏见和情绪,因此即使有经验的数据科学家也经常认为,他们不需要任何监督,直到出现明显的问题。
•许多依赖于机器学习算法的应用程序都是自主运行的。由于人类使用者没有监控整个过程的每个阶段,因此这些偏见的影响可能更为微妙。
•开发机器学习算法的程序员可能无意地或有意地引入自己的偏见。
•机器学习算法的完整性仅限于可用数据集缺乏偏见。如果算法依赖来自代表重点人群的用户的机器学习数据集,那么他们将会有很大的偏见。
最后一点也是最重要的一点。如果企业采取正确的步骤并知道要寻找什么,它也是最容易解决的因素之一。以下是机器学习数据集偏差导致的现实挑战的一些例子。
选举不公正(Gerrymandering)在美国全国大选的一个主要问题。当政客们绘制选区以确保选区划分为支持自己政党的候选人时,就会发生这种情况。
许多政治专家已经要求使用计算机生成的工具来绘制选区。他们认为,人工智能的分区方法不会受到相同偏见的想法。
不幸的是,这些应用程序的初步评估显示出与人类相同或更差的偏见。政治科学家正在努力理解这些算法的失败。但是,似乎可能会引入同样的偏见。
效果较差的网络研讨会营销活动
越来越多的企业正在使用网络研讨会与观众互动。不幸的是,人工智能推广工具的问题可能会限制它们的有效性。机器学习偏见如何影响网络研讨会的表现?
其中一个问题是,机器学习在帮助营销人员通过社交媒体和按需付费实现入站营销活动的自动化方面发挥着重要作用。他们依靠这些平台上的人员来扩大他们的网络研讨会足迹。然而,推动营销自动化软件的机器学习工具可能会对用户的人口统计数据做出错误的假设,这会导致错误的人员进入着陆页面。
种族歧视面部识别算法
面部识别软件是一个新的领域,可能会对社交媒体、执法、人力资源和许多其他应用程序产生巨大影响。不幸的是,提供给面部识别软件应用的数据集中的偏差会导致非常错误的结果。
当第一个面部识别软件程序开发出来时,他们经常将非洲裔美国人的面孔与大猩猩的面部相匹配。据一些专家称,如果非裔美国人的程序员更多地参与到开发过程中,并且要求更多的非洲裔美国人用户向该项目提供数据,则不会发生这种情况。
“如果在训练集中没有非裔美国人的面孔,这就是一个例子。”Intuit公司首席数据官Anu Tewary说,“如果没有非裔美国人从事该产品的工作,那么当技术遇到非裔美国人的面孔时,就不知道该如何表现。”
LinkedIn招聘的性别偏见
机器学习数据集的问题也可能导致人力资源行业存在性别偏见的问题。几年前,这是LinkedIn应用程序的一个问题。该算法旨在根据LinkedIn用户的预期收入和其他人口统计标准提供工作建议。
然而,申请经常没有向合格的女性候选人提供这些建议。这可能部分是由于开发商方面的性别偏见而造成的。但是,LinkedIn也可能没有鼓励足够的女性用户对应用程序进行抽样。这给算法注入了高度偏向的数据,这影响了程序的机器学习能力。
异构数据集是解决机器学习偏见的关键
机器学习是一个不断发展的领域,它为无数行业提供了巨大的希望。然而,它可能会受到与人类偏见一样极端或更糟的偏见。
减轻风险的最佳方法是从各种随机来源收集数据。拥有一个异构数据集将限制暴露于偏见,并导致更高质量的机器学习解决方案。
编辑:Harris