AI和BI项目陷入了数据准备任务的泥潭

AI和BI项目陷入了数据准备任务的泥潭

时间:2020-11-25 作者:gykj

IBM报告说,数据质量挑战是组织重新评估(或结束)人工智能(AI)和商业智能(BI)项目的主要原因。

IBM云和认知软件高级副总裁Arvind Krishna在最近对《华尔街日报》的采访中表示,“与AI项目相关的工作中约有80%正在收集和准备数据。一些公司不准备为此付出的成本和工作。你说:“嘿,等等,人工智能在哪里?我没有得到好处。而且您对此有所保释。” [1]

在启动AI和BI项目时,许多企业没有为数据准备DP)的成本和精力做好准备。更复杂的是,项目的DP工作通常涉及数百种数据和记录类型以及数十亿条记录。福州小程序开发公司

但是,数据分析项目对于数字经济中的组织成功越来越重要,因此需要DP解决方案。

什么是AI / BI数据准备?

Gartner将数据准备定义为“一种迭代和敏捷的过程,用于探索,组合,清理原始数据并将其转换为精选的数据集,以进行数据集成,数据科学,数据发现以及分析/商业智能(BI)用例。” [2]

2019年国际数据公司(IDC)的一项研究[3]报告说,数据工作者每周在与数据相关的活动上花费大量时间(见图3): 

数据准备的比例为33%,而分析的比例为32%(可悲的是,数据科学仅为13%)。在这项研究中,超过30%的所有数据工作者提到的最大挑战是“花费太多时间在数据准备上”。 

图1: 2019年国际数据公司(IDC)的研究,“在数据相关活动上花费的时间”。

AI和BI项目陷入了数据准备任务的泥潭

数据源的多样性,数据类型的数组,数据量的巨大性以及数据分析和商业智能的众多用途-所有这些都会导致多个数据源和每个项目的复杂性。因此,当今的数据工作者经常使用多种工具来实现DP成功。

数据准备工具所需的功能

Gartner研究报告《数据准备工具的市场指南》 [4]中的证据表明,使用DP工具可以将数据准备时间和DP期间发现的信息报告减少一半以上。

在同一份研究报告中,Gartner列出了供应商和DP工具的详细信息。这家分析公司预测,今年DP解决方案的市场规模将达到10亿美元,其中近三分之一(30%)的IT组织将使用各种自助数据准备工具集。

Gartner的另一项有关数据和分析趋势的调查[5]显示,超过一半(54%)的受访者希望并需要在未来12到24个月内自动执行数据准备和清理任务。

为了加快对数据的理解和增进信任,数据准备工具应具有关键功能[4],包括以下功能:

  • 提取并分析数据。通常,数据准备工具使用可视环境,使用户可以交互式地提取,搜索,采样和准备数据资产。
  • 创建和管理数据目录和元数据。工具应创建和搜索元数据;并跟踪数据源,数据转换和针对每个数据源的用户活动。工具还应跟踪数据源属性,数据沿袭,关系和API。所有这些功能都可以访问元数据目录,以进行数据审核,分析/ BI,数据科学和其他操作用例。
  • 支持基本数据质量和治理功能。工具应具有与其他支持数据治理/管理和数据质量标准的工具集成的能力。

挑战在于如何做好数据准备工作。商业智能先驱霍华德·德雷斯纳(Howard Dresner)最近的一份报告发现,有64%的受访者经常执行最终用户DP,但是只有12%的受访者表示他们非常有效[3]。将近40%的数据专业人员花了一半的时间准备数据而不是分析数据。

以下是一些有助于确保AI和BI项目获得最佳DP的实践。数据准备服务和产品供应商可以提供更多信息[6,7]。

最佳实践1:确定需要哪些数据源才能满足AI和BI要求

采取以下三个一般步骤进行数据发现:

  1. 确定满足所需业务任务所需的数据。
  2. 确定该数据的潜在内部和外部来源(并包括其所有者)。
  3. 确保根据要求的频率提供每个信号源。

最佳实践2:确定用于数据分析和准备的工具

必须将数据源加载到DP工具中,以便进行数据分析和处理。必须将数据放入可以对其进行仔细检查并为下一步准备的环境中。

最佳实践3:配置文件数据(潜在数据和选定的源数据)

概要分析是DP中的关键步骤(但经常打折)。一个项目必须分析源数据,然后才能为下游消耗做好充分准备。除了简单的外观检查之外,您还需要分析数据,检测异常值并在源中查找空值(以及其他不需要的数据)。

此概要分析的主要目的是确定哪些数据源甚至值得在您的项目中包括在内。正如数据仓库专家Ralph Kimball在他的书《数据仓库工具包》中写道:“尽早取消数据源资格是一个负责任的步骤,可以赢得团队其他成员的尊重。”

最佳实践4:清理和筛选源数据

根据您对最终业务分析目标的了解,尝试使用不同的数据清除策略,以将相关数据转换为可用格式。从一个统计有效的小样本开始,反复尝试不同的数据准备策略,完善记录过滤器并与业务涉众讨论结果。

当发现什么是合适的DP方法时,请花一些时间重新考虑实现业务目标所需的数据子集。在整个数据集上运行数据准备规则将非常耗时,因此请与业务利益相关者进行认真思考,以了解您需要和不需要哪些实体和属性以及可以安全地过滤出哪些记录。

最后的想法

从AI / BI项目的开始就进行正确而彻底的数据准备,可以使线下的AI和BI更快,更高效。此处概述的DP步骤和过程适用于您正在使用的任何技术设置-它们将为您带来更好的结果。

请注意,DP并非“一劳永逸”的任务。数据是从多个来源连续生成的,这些来源可能会随着时间而变化,并且业务决策的上下文无疑会随着时间而改变。与数据准备解决方案提供商合作是DP基础架构长期功能的重要考虑因素。

版权所有:https://www.eraycloud.com 转载请注明出处