机房360首页
当前位置:首页 » 技术前沿 » 准备分析数据时要问的一些问题

准备分析数据时要问的一些问题

来源:机房360 作者:Harris编译 更新时间:2016-10-9 7:14:17

摘要:数据准备可能是任何类型的数据分析中最重要的一步。而在广泛的知识领域企图掩盖这些是很荒唐的,在这篇文章中准备了一个清单,你可以通过运行数据进行分析后的准备。希望这将有助于优化数据的准备过程,并确保拥有所有的重要步骤和基础覆盖。

    数据准备可能是任何类型的数据分析中最重要的一步。而在广泛的知识领域企图掩盖这些是很荒唐的,在这篇文章中准备了一个清单,你可以通过运行数据进行分析后的准备。希望这将有助于优化数据的准备过程,并确保拥有所有的重要步骤和基础覆盖。
  
  在开始之前:定义业务问题
  
  以前曾写过关于需求获取过程中的问题,但作为一般性原则,任何类型的数据分析开始成为你要回答的熟悉业务的问题,而你要衡量KPI指标。
  
  了解业务需求,将使你以后将这些需求映射到你要执行的数据和类型分析中,在开始的时候,可能不了解企业业务,可能会导致大量的浪费时间和精力后下,但是不要跳过这一步!
  
  一旦你有一个什么样的企业希望看到作为分析的最终产品牢牢把握,你要开始深入研究数据。你会想要做的第一件事就是找到它。
  
  数据在哪里?
  
  第一组问题是指组织的数据的物理存储位置。对于小型部署来说,这可能是在一系列电子表格那样简单;对于较大的部署,你可能会在多个数据库、Hadoop数据湖、云源或数据仓库寻找。
  
  你还需要了解是否有所需的权限来访问数据,以及将处理的数据类型或格式。
  
  在这个阶段你想问的问题是:
  
  •我的组织与哪个数据源一起工作?
  
  •我是否有所需的权限或凭据来访问数据?
  
  •每个数据集的大小和数据是多少,我需要了解每一个数据集吗?
  
  •在每个数据库中如何熟悉基本表和模式?
  
  •我需要将所有的数据进行更多的粒度分析,以确保更快的性能?
  
  •将所需要的数据进行标准化,通过一个SQL数据库与NoSQL源进行组合?
  
  •我需要分析来自外部来源的数据,这数据是在我的组织的数据存储之外吗?
  
  你需要更改数据吗?
  
  数据通常需要手动转换或操纵进行有效的分析。当各种表或数据集使用不同的格式相同的信息时,数据是不一致的,或包含重复的信息,或当你想以新的方式组数据,这可能是相关的问题。
  
  这是你想问的:
  
  •为每一个单独的数据来源,是完整的吗?准确吗?是最新的吗?
  
  •在当前状态下,我可以利用这些数据来回答我的业务问题吗?
  
  •如果有不一致或多余的值,我需要做什么来清理数据?是采用手动改变一些价值的问题或采用一个更系统的方法是必要的吗?
  
  •请问我能不能在原来的位置改变数据,或将第二个环境下进行这方面的更改(例如,没有权限更改生产数据的情况下)?
  
  你将如何连接数据?
  
  如果你使用许多不同的数据源和表时,你需要的方式,使仪表板用户通过在不同的表连接相关领域迅速得到解答即席查询的数据模型。在数据模型中的各种实体之间的关系将确定查询类型的将来分析将能够回答,以及在其中它这样做的效率。
  
  先问问自己:
  
  •从企业的角度来看,哪些领域适合于数据连接在一起,从商业的角度来看?
  
  •一旦这些领域连接会发生什么关系呢?你要避免许多一对多的关系。
  
  •请问我的数据模型的规模是多大?
  
  •如何容易地将它添加数据源,并进一步改变模型的道路?
  
  •我们可以简化关系而不影响性能吗?请注意,这可能取决于你使用的数据准备和分析工具。
  
  你需要进一步巩固数据吗?
  
  对于某些类型的更复杂的分析,您可能希望在现有的基础上创建新的表。这的一个例子可以是一个漏斗分析,其中你想采取一个持续进行的,多阶段的过程的基本信息,并将每个记录分为不同的类。这可以帮助你了解是否已经准备好问题,这其中包括:
  
  •我需要为要执行的分析类型创建汇总表吗?
  
  •我需要将所有的数据进行更多的粒度分析,或者需要一个子集,以确保更快的性能?
  
  你将如何导入数据?
  
  虽然在某些情况下,你会创建报告和分析,通过查询生产数据库,大多数的人工智能工具和实现将依赖于二级环境中创建一个合并的数据,将作为你的分析数据库中创建数据的融合。你想问的问题包括:
  
  •如果我有足够的软件和硬件来处理我正在处理的数据量?是否移动我的数据到本地服务器或云服务器,这两个措施都可以采用,因为采用合适的软件可以降低硬件成本。
  
  •我需要输入数据的频率是多少?这取决于原始数据的变化或增长的速度。
  
  •如何将导入影响生产环境的数据?
  
  你将如何验证结果?
  
  在你可以自豪地宣布资料准备齐全之前,你要确保最终的结果是准确的,并且在前进的道路上还没有任何错误。为了验证数据,请问这样的问题:
  
  •在通常水平上做这些是有意义的吗?
  
  •我是否能看到符合我已经知道的业务措施?
  
  •在我的分析环境中进行计算,返回相同的结果,作为原始数据手动执行相同的计算?
  
  开始分析
  
  在你完成了上面的清单后,你会发现数据已经改变了,建立了你的数据模型,将数据移动到分析数据库,并验证了结果。这可能是一个小时,几天或更多的时间,这取决于你正在工作的数据量和其复杂性。
  
  如果一切顺利,最好还是阅读一些指南,以确保你遵循的核心原则,这将有助于你的数据告诉你一个清晰易懂的故事。
  
  编辑:Harris

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2016109/n747187690.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片