中继在大数据集成中的作用

中继在大数据集成中的作用

时间:2020-11-24 作者:gykj

大数据集成的本质要求组织在某些方面变得更加灵活。特别是从移动应用程序,浏览器启发式,A / V输入,软件日志等各种来源收集输入和指标时。您的组织在同时遵守内部和政府规定的标准时需要摄取的不同方法,协议和格式的数量可能是惊人的。

是否有一种清晰谨慎的方法来实现快速数据集成,同时又能获得大数据分析的所有好处?

通过分布式中继架构进行数据集成

如果您引入了一组智能缓冲区,而不是仅允许所有数据从数十个信息孤岛中流入,该怎么办?想象一下,每个缓冲区都是专门为您需要在任何给定时间接收的输入而构建的:Shell脚本,REST API,联合DB,哈希日志文件等。

让我们将这些智能缓冲区称为真正的缓冲区:中继。他们吸收SSL加密的数据,根据需要发送其他查询,并根据ACL的特定于ACL的要求提供容错数据访问,ACL专门针对管理该数据集的团队和服务器端应用程序。福州小程序开发公司

如果您要建立这样的分布式中继体系结构来处理您的大数据集成链,则可能看起来像这样:

中继在大数据集成中的作用

大数据中继架构

现在,您可以选择了。对于需要快速更新的应用程序,例如股票,商品,货币交易等,您的继电器可以提供可靠的实时流。对于速度较慢的消费者,您可以使用日记系统,该系统可以用作您收集的数据的集中镜像。

分布式中继架构在大数据分析中的作用

重要的是,特别是在诸如预测分析和用户行为分析之类的领域中,避免将噪声引入系统。任何依赖于统计建模和机器学习的垃圾数据都可能迫使整个系统回滚。因此,至关重要的是,只有在数据经过消毒并以可验证的可互操作格式进行显示之后,才可以进行数据集成。

进入分布式中继架构。每个中继都确保流入数据分析管道的信息来自可靠的,经过身份验证的来源,并以服务器已经理解的可消化块的形式到达。

中继需要具有五个主要属性才能成功执行其任务。

  1. 快速,可靠的数据消耗:实时数据通信容易出错。一个主要的问题是缓慢的消费,迫使关键任务生产者不得不备份。将高速继电器放置在实时数据生成器附近可缩短距离,并提供容错缓冲区。
  2. 可移植性:使用单独配置的继电器解决了与数据库,操作系统或不可互换协议的多个不兼容版本的接口;将动荡的环境映射到一致,可访问的协议中。这可以实现异构数据源的无缝组合,并使后端的数据集成更加容易。
  3. 本地化的审核和权利:管理数据的团队通常最好地了解了解谁应该有权访问数据的逻辑规则。附加的本地化权利层允许以分布式方式分配复杂的细粒度数据权限。
  4. 免疫:服务器进程中断,网络连接丢失,第三方适配器崩溃,硬件出现故障。但是,否则,系统性的影响将在中继站停止,从而将中断保持在局部且有限的范围内,从而提供最佳情况。
  5. 完全访问权限:文件,可执行文件和操作系统功能通常不容易获得。通过在本地安装中继,这些资源变得可以远程访问和监视。例如,这对于实时UX事件所需的监视类型至关重要。对于其他需要过程级监控的大数据分析应用程序(如组合系统和网络性能测试),这也可能很重要。中继可以实现非常精细的监视级别。

结论

对于大数据应用程序所面临的一些更复杂的数据集成问题,分布式中继体系结构可能是最快,最具成本效益的解决方案之一。将谨慎的,专门构建的中继器放入体系结构的能力避免了尝试从异构源中提取时经常遇到的大量问题。

垂直和水平缩放的能力意味着即使在处理大量外部应用程序和资源时,这些继电器仍然可行。分布式浏览器后端可以为多个地区的大量项目团队和数据分析师提供服务,而无需安装专有的客户端软件。

版权所有:https://www.eraycloud.com 转载请注明出处