迈向更智能的数据:图形数据库和机器学习 福州大数据开发

迈向更智能的数据:图形数据库和机器学习 福州大数据开发

时间:2020-10-1 作者:gykj

当我们过去考虑数据时,通常是将要存储数据的位置以及我们将如何对其进行管理。是的,文件工作了一段时间,但是当处理数据成为各行各业的重要业务优先事项时,“文件”解决方案不再能很好地工作了。为了满足这些不断增长的需求,设计并开发了应用程序,同时满足了数据存储和操作需求-因此,“数据库”诞生了。

今天,人们对数据的看法大不相同。除了数据操纵外,组织还集中精力挖掘其数据,以更深入地了解和更深入地了解该数据中的智能。利用从他们的数据中获得的见解来帮助做出明智的业务决策,这对于企业领导者来说是至关重要的优先事项,也是数据库解决方案的开发,演进和采用中的主要关注点。

行业中出现了一个新术语-数字资产。世界一直在迷恋的数据……它现在被认为是企业最有价值的资产之一,现在比以往任何时候都多。而且它的意义也更加清楚。我们都听说过数据积累的主要参与者,这些公司最大的资产就是他们拥有的可用数据-Google,Facebook,Amazon,Netflix等。这有 很多 做与正在创建的数据量。

数据库解决方案

涉及数据库解决方案时,有许多(即使不是无尽)的方法来组织数据,最终在SQL,NoSQL和图形数据库之间进行选择。

  • SQL –提供表之间的隐式关系。例如,可以通过在一个表中绑定一个ID来创建约束,该表用作另一个表的索引。
  • NoSQL –可以同时具有隐式和显式关系,但是缺少SQL模式的结构。
  • –具有围绕数据节点之间的关系的显式结构,它还可以具有使用ID索引到其他节点或其他数据库的隐式关系。图形数据库比关系数据库包含更多的结构关系。 

在2018年中期,《福布斯》(Forbes)的一篇文章引用了一系列有关全球数据积累的统计数据,其中一项统计表明每天创建2.5亿(2.5E30)字节的数据(《数据永不睡眠》(Data Never Sleeps 5.0)中提供的原始计算)。显然,对于人类来说,这是太多的数据,无法筛选,理解和用于创建产品和服务。机器学习已成为这一挑战,它可以帮助先前提到的主要公司以及许多其他公司从其数据中创建数字资产。 

这一成功驱使科学家和工程师寻求使用更有意义的有效方法来使用大数据,例如将大集合集中到机器学习算法中,其结果是对数据中内容的更深刻理解。

这些见解导致越来越好的数据集可以进一步训练。然后,组织可以应用该情报来生产更高质量的产品和服务。简而言之,机器学习通过使公司能够从大数据中提取可行的情报来提高公司数字资产的价值。在过去的几年中,图形数据库辅助了这种方法。

什么是图形数据库? 福州大数据开发

根据Neo4j,图形数据库为:

一个旨在将数据之间的关系视为对数据本身同样重要的数据库。它旨在保留数据而不将其限制为预定义的模型。取而代之的是,数据的存储方式就像我们首先绘制出来一样—显示了每个单独的实体如何与其他实体联系或相互关联。

如上所述,图数据库由三个组件组成:节点,边和属性。节点和边缘具有通常描述节点和边缘代表什么的标签。在视觉上,节点和边可以表示如下:

迈向更智能的数据:图形数据库和机器学习 福州大数据开发

可以将边缘视为节点之间的关系。属性可以与节点和边关联。例如,如果我们有一个代表人的节点和一条描述友情的边,那么该图可能看起来如下所示:

迈向更智能的数据:图形数据库和机器学习 福州大数据开发

在此示例中,图中的节点具有名为Person的标签,并且具有name属性。连接节点的边(即关系)具有名为isFriend的标签,并具有bestFriend属性。您可以通过根据节点或边的标签和/或属性选择节点或边来查询数据库。

图数据库的主要优势

  • 熟练处理高度连接的数据–图形数据库将关系存储为直接数据。这种关系无法推断,可以直接进行交互。这使得表示高度连接的数据变得容易并且易于使用。
  • 连续执行复杂的查询 –因为数据之间的关系是本地存储的,所以复杂的查询将很快执行。对于上下文,SQL数据库中的类似查询将涉及复杂的联接语句,这可能是非常占用CPU且非常耗时的任务。
  • 直观地表示数据–与SQL数据库使用的更传统的表格表示法相比,图形数据库更直观,更自然地表示数据。数据域和其他域之间的连接可以直接表达和表示。
  • 更深入地探索数据–由于直观地表示了数据,因此探索起来更容易,更自然。大多数数据解决方案可以直接在图表中表示。这样一来,不仅仅DBM和其他数据科学专业人士,无数个人都可以参与数据探索。
  • 为数据带来环境–当图形数据库捕获数据之间的关系时,可以观察到并进一步理解新的见解,进而触发将图形添加节点(甚至是全新图形)的创新想法。

为什么数据对机器学习很重要

所有机器学习都依赖于数据。一般而言,您可以提供模型的数据越多,模型就越好。您的ML模型需要具有高质量的数据,这些数据必须与您要解决的问题有关。因此,除了数量外,数据质量也很重要。在数据中查找关系并将其暴露在模型的训练数据中可以极大地提高其可预测性。

坦率地说,高质量的数据会创建高质量的训练功能,从而生成可以更准确地概括未见数据的高质量模型。因此,了解和解释ML模型的含义及其行为变得容易得多。

机器学习的现状和大数据缺陷

如上所述,每天都会创建大量数据。数据科学专业人士正在使用此数据进行培训,他们在机器学习中取得的进步确实令人赞叹。但是,业界担心–这种感觉是可以对当前捕获的数据做更多的事情。以下是ZDNet 2018文章中的一些陈述,这些陈述呼应了许多数据专业人员今天所说的话。

标题

谷歌思考机器学习的缺点

总览

Google的Google Brain和DeepMind部门的AI科学家承认,机器学习还缺乏人类的认知能力,他们建议使用网络模型可能是一种发现事物之间关系的方法,从而使计算机可以更广泛地泛化世界。

行情

“这个想法是网络比任何一种机器学习方法都要大。带来了概括单个神经网络所不具备的结构的能力。”

“这些的好处还在于,它们可能具有更高的’采样效率’,这意味着它们不需要像严格的神经网络方法那样需要那么多原始数据。”

“哪里做的图形来自于该图形网络上工作?”

显然,关系和图形被视为带动了机器学习的下一个进步。因为当将表格数据移动到图中并添加关系时,会创建一个上下文,该上下文提供了一个新框架来查看数据。

图数据库将上下文带回数据

关系是行为的最强预测因子。James Fowler博士的以下引用在许多研究中都发现了这一点,并对此进行了很好的阐述:

“越来越多的我们了解到,与从自己的有关人自己的信息中获取的信息相比,从他们的朋友及其朋友的朋友中获取的所有信息,您可以对人做出更好的预测。”

一般而言,您可以这样说:

与仅从数据中获取数据相比,您可以利用数据中的关系做出更好的预测。

一个很好的例子是,关于某人是否要吸烟的最有力的预测因素是他们是否有已经吸烟的朋友。

在数据中添加关系上下文将带来这种预测能力(它始终存在,只是隐藏在表面之下)。如果数据以表格形式存储,则将其转换为图形数据库需要您以新的方式考虑数据域-定义节点,节点之间的关系以及与每个节点关联的属性。有一种几乎无限的方法可以做到这一点。实际上,可以输入一个迭代循环,您可以在其中将表格数据转换为节点,关系和属性。研究此上下文可以发现关于您的数据的某些新颖事物,然后可以将表格数据完全转换为图形,或者极大地扩展现有图形。

图形数据库为数据带来了一定的上下文,从而可以从您已有的数据中创建新的机器学习训练功能。这提高了训练数据的价值,因此,产生了做出更准确预测的模型。

机器学习中的图数据库

数据在机器学习中起着重要作用,并且必须以机器学习算法可以训练的方式对其进行格式化。为此创建了数据管道。数据管道是一个过程,通过该过程可以从数据库(或其他数据源)中提取原始数据,进行转换,然后将其加载为机器学习算法可以对其进行训练和测试的形式。典型的机器学习数据管道如下所示:

迈向更智能的数据:图形数据库和机器学习 福州大数据开发

图形数据库如何适合您的数据管道

图形数据库属于管道的“加载数据”部分。它不会改变您当前训练模型的方式。实际上,如果您在“加载数据”阶段中使用Apache Spark,则它已经支持非持久图将表格数据移动到图中的过程。

提取连接特征

连接要素是图形拓扑中固有的要素。例如,一个特定节点与其他节点有多少条边(即关系)?如果图中许多节点靠在一起,则那里可能存在一个节点社区。一些节点将成为该社区的一部分,而其他节点则可能不是。如果特定节点具有许多外向关系,则在提供正确域和上下文的情况下,该节点对其他节点的影响可能会更大。

像从数据中提取其他特征并用于训练和测试一样,可以基于对问题空间的理解,通过执行自定义查询来提取连接的特征。但是,鉴于这些模式可用于所有图形,因此已创建了无监督算法,可提取有关图形数据拓扑的关键信息并将其用作训练模型的功能。

像连接的功能一样,获得将数据放入图形数据库的好处,意味着您的问题域适合图形结构。但是请考虑,并非所有问题域都适合。

图数据库最有前途的地方

图数据库提供了这种智能的见解和对数据的理解,毫不奇怪的是,它们被跨行业使用,包括金融和保险服务(例如,用于欺诈检测),制药(例如,用于药物发现)和网络安全(例如,用于网络)安全)。

随着每天产生的数据量不断增加,对数据科学进行处理和理解该数据以及使用其中包含的信息的需求也在不断增长。事实证明,图形数据库是该过程的关键部分。而且,由于图形数据库保存数据,并且这些数据之间的关系允许简单直观的查询,它们将继续帮助行业对其不断积累的数据缓存获得更深刻的见解,从而更好地为客户服务。

版权所有:https://www.eraycloud.com 转载请注明出处