您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

构建大数据架构:核心组件优秀做法

发表于:2021-05-10 作者:邹铮 编译 来源:TechTarget中国

结构化、半结构化和非结构化数据的数量和种类正呈指数增长,并且以越来越高的速度从各种来源生成,这形成大数据。

研究人员估计,到2025年,世界每天将创建463艾字节的数据,即每天4,630亿千兆字节。

当然,没有任何一家企业会需要所有这些数据,但是他们需要收集、存储和分析尽可能多的数据,以便从可行见解中获得优势,以在这个数字时代有效地竞争并取得成功。

然而,很多企业才刚刚开始其大数据之旅。数据集成平台提供商Talend公司全球解决方案工程副总裁Christophe Antoine说:“大多数企业仍在摸索大数据的作用。”这里的主要原因:他们没有适当的大数据架构。Antoine 补充说:“如果你只是重复自己所做的事情,你很有可能会对结果感到不满意。”

什么是大数据架构?

企业需要扩展其技术堆栈来处理大量且多样的数据,并且他们需要部署基础架构,以最快的速度(通常是实时或近实时)完成这项工作。

数字化转型服务UST公司数据工程和平台总经理Sripathi Jagannathan说:“传统的数据库和数据处理技术无法扩展以满足企业的需求。”

这正是大数据架构发挥作用的地方。它的目的是获取、处理和分析数据,而传统数据库系统无法处理这些数据,因为它们太大或太复杂。而且,大数据架构可随着企业大数据计划的发展而扩展-无论是所使用的数据量,企业用例数量–取决于企业的大数据。

Jagannathan解释说:“大数据架构是基础架构和软件方法,可加快存储和处理非常大量且以不同速度生成的各种数据。”

大数据架构组件

IT顾问表示,他们已经看到有些企业领导者错误地寻求一种一次性解决方案来满足其大数据野心。实际上,企业需要设计和部署多层架构,以成功处理大数据程序中所涉及的全部任务。

大数据分析咨询公司Brillio美国地区负责人Sandhya Balakrishnan表示,最简单的大数据架构模型具有三层。

存储层保存企业从各种数据生成源中提取的数据,无论这些源是企业自己的操作系统、第三方系统还是其他端点。

处理层可以执行批处理、实时处理或混合处理。

消耗层使企业可以通过分析引擎、数据查询或AI和机器学习应用程序以及数据可视化(这可以通过很多不同的工具来实现)以各种方式使用数据。

其他模型将大数据架构分解为更多的层,从而分离出更多的单个组件。例如,某些模型列出这些单独的层:数据收集器、数据获取、存储、处理、数据查询、数据分析和数据可视化。

其他模型进一步增强数据安全性和数据监视。

设计和部署挑战

在设计和部署大数据架构以及管理所有相关基础架构时,IT团队通常会遇到多个挑战:

  • 选择合适的组件和工具来平衡当前需求、未来需求、成本和预期回报。
  • 集成各种组件(特别是与生成数据的旧系统集成)以收集、处理和利用所有必需的数据。
  • 以企业用例所需的速度和规模来收集、集成和处理数据。
  • 具有必要的技能,可充分评估选项、开发和完善架构,并最终管理已部署的技术。Antoine指出:“你必须有架构师完全了解优缺点,并可说明为什么选择一种技术,而不是另一种。”
  • 请确保数据符合法规要求、隐私标准和最佳做法。
  • 提高对数据的信任度,让用户对数据所产生的结果充满信心,以最大化数据价值。Balakrishnan称:“你必需构建正确的实用程序和工具,以确保数据质量可见。”
  • 优化数据。人寿保险提供商Bestow数据科学工程师Jeremiah Cunningham表示:“我们可以通过多种方式存储、传输、清理、查询和呈现数据。企业可能会选择不同方式调查数据:基于时间、基于队列或更复杂的子集。但以复杂的方式访问大量数据会产生优化问题,这个问题可能有不同表现形式。”

大数据架构最佳做法

经验丰富的技术领导者为我们提供了以下最佳做法,用于设计和运行可提供价值的大数据架构:

  • 确定企业希望通过大数据计划实现的业务价值,并用以指导所需技术的敏捷交付。
  • 根据战略构想构建架构,并将其作为敏捷程序,同时创建足够的模版以使其可扩展。Balakrishnan建议说:“应以全面的视角构建技术基础。”
  • Jagannathan称,解耦系统“以确保新工具和技术可集成,而不会造成重大中断”。
  • 创建全面的数据治理计划,以确保数据受到保护,对于计划的用例是完整的,并收到用户的信任。

可用技术示例

很多技术共同形成大数据架构,因此在部署其基础架构时,企业IT架构师可以从多个供应商中选择工具。

根据Research and Markets的报告显示,全球大数据市场的估计价值预计将以每年近20%的速度增长,到2027年将超过2430亿美元。构成大数据生态系统的技术包括:

  • 提取、转换和加载工具;
  • 数据湖和数据仓库;
  • 用于处理和存储的云平台;
  • 商业智能和数据可视化软件;
  • 以及 数据治理和数据安全工具

Cunningham建议:“调查企业对数据的当前需求和未来前景,并对所需的概念技术制定计划。通过尽早研究潜在的产品和选择,你可以将问题缩小到可管理的规模,然后从同行那里获得有关潜在问题或意外收获的意见。重要的是,适当地研究并选择正确的技术来完成正确的工作,最大限度地提高生产力,同时最大程度地减少时间和成本。”