摘要:最近有人请教专家,“多年来,人们谈论了分析从80%的数据准备和20%的分析到20%的数据准备和80%的分析,但现在仍然似乎停留在80%的数据准备阶段。这是为什么?”这是一个非常好,非常真实的问题,这导致许多人为此而沮丧。 |
专家相信实际上有一个很好的答案,认为缺乏进展并第一次出现这种情况。为了解释,人们需要区分新的数据源和/或新的业务问题,以及人们之前已经解决的现有问题。
新的突破
每当首次获取和分析新的数据源时,都需要进行大量的初始工作来理解,清理和评估数据。如果没有初步的工作,就不可能进行有效的分析。大部分工作都将是一次性的努力,但它却起到实质性的作用。例如,确定如何识别和处理不准确的传感器读数或错误记录的价格。
行业专家表示,在其职业生涯的早期,所面临的一些最具挑战性的工作是使用新的数据。对于新数据源的分析,数据准备和其他分析工作与分析的比率肯定比20%/80%,更多的是80%的准备/20%的分析。然而,随着时间的流逝,使用新的数据源完成更多的分析,事情变得更加精简和高效。
回顾传统的路径
一旦数据源已被用于一系列的分析,这是很好理解的,开发新的分析过程开始向2/8比率漂移。通过利用诸如企业分析数据集之类的东西,只要分析可以利用过去分析中所使用的相同类型的度量,就可以几乎直接进入新的分析。
事实上,许多大型组织已经标准化和简化了传统数据源的分析使用。例如,交易数据用于分析广泛行业中的客户行为。许多组织都有大量的可用于提供新旧分析的标准化客户指标。每个客户基于交易历史的成千上万个指标的公司。使用这些指标来开发新的分析流程并不困难,并且通常20%准备/80%分析命题可能比80/20命题更多。
即使你接受上述所有要点,你的分析组织是否仍在花费大量时间进行数据准备?那是因为你的直觉可能在目标上,而不是你最初想到的原因。
大数据的挑战
大数据的崛起导致了数据源在过去几年的激增。同时,分析已经成为主要焦点,并且需要分析来解决日益扩大的业务问题范围。当结合这两个趋势时,我们会有大量的新的突破,这使我们回到需要大量的工作来理解,清理和评估数据。因此,我们最终花费大量时间在数据准备上,仍然看到80/20的比率。
然而,重要的是向后看,并认识到已经取得的进展。几年前需要大量工作的数据可能不需要进行大量的工作。在这些情况下,数据准备与分析的比率可能接近20/80目标比率。当人们今天的数据问题所淹没时,往往忽视了这种进步。即使人们已经在旧的数据和分析方面取得了很大的进步,还会面临着大量的新数据和问题。
保持正确的观点
组织永远坚持做更多的数据准备比分析,这种感觉肯定是令人沮丧的。然而,重要的是要认识到,你正在做的数据和问题的准备是不断变化的。
这是根本不可能的分析的一个新问题,新的数据没有经过一大堆繁重的工作和数据就开始准备。这没有什么错。
事实上,如果你的组织具有了足够的新分析能力,感觉应该停留在数据准备模式,那么你应该很高兴,因为这意味着你可能取得进展。关键是确保一旦你解决了今天的问题,并理解其数据源,就可以提高到更高水平的自动化和标准化那些数据源和进程。通过这些已经了解的数据和问题的分析,将变得更容易,你可以腾出时间为下一次分析准备数据。
编辑:Harris