您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

大数据世界中的新技术

发表于:2022-11-21 作者:李源 来源: e-works

大数据世界正在以前所未有的方式发生着变化,特别是企业将数据整合到一起并将其应用到业务的情况下。而企业都面临的挑战是能够发现、识别并带来构建产品、提供服务和了解客户所需的数据。数据集成本身几十年来一直是一种实践和挑战。然而,新的工具和流程正在以新的方式使企业达到一种能够支持人工智能、机器学习和物联网等复杂应用程序的状态。问题是,以数据为中心的文化还很遥远,特别是由于数据仍然存在于孤岛中,跨越不同的设备,并以不同的格式存储,这些可能是很多企业没有准备好充分利用其潜力的部分原因。

以下是未来一年值得关注的一些发展。

非结构化数据存储和搜索

首先,企业需要做些什么来处理输入或生成的不断增长的数据量。调研机构Constellation Research公司副总裁兼首席分析师Andy Thurai说,“改变游戏规则的是非结构化数据的存储、管理和搜索方式。人工智能需要采用大量非结构化数据,这很重要,因为收集到的近80%的数据都是非结构化的。”

他补充说,“许多企业拥有的非结构化数据远远多于他们真正知道该如何处理的数据。非结构化数据被转储到像Amazon S3这样的存储设施中,没有人会费心从中获取见解,除非有迫切的需求。视频、图像和音频文件以及其他类型的非结构化数据会占用大量空间。鉴于存储需求的巨大规模,存储成本成为许多企业的一个主要因素。这种存储需要比传统系统便宜得多。”

他表示,Data Lakehouse就是为了解决这些问题而发明的。数据湖直接从原始来源存储数据,而不需要更传统的数据仓库所需要的格式化、清理和转换。Thurai指出:“Data Lakehouse还支持大规模的机器学习工作负载。”

Thurai表示,现在越来越多的工具和平台以对非结构化数据进行多语言搜索,搜索未标记、未分类的图像为特色。以前很难在扫描文档中搜索图像。视频、图像和音频自动分类功能是另一个非常重要的领域。数据科学家需要花更少的时间来处理这些数据,而花更多的时间来建立模型。

这样的能力使系统能够发现相似之处,这有效地保护了音乐、图像、音乐视频等的版权。Thurai说。“现在可以比较两个非结构化数据片段,例如音乐或视频,看看其中一个是否复制自另一个。此外,这种能力对情感分析也很有用。例如,如果有人在新闻片段中提到某一公司或个人,人工智能可以自动分析未标记的数据,并预防性地提出缓解措施。”

数据网格

云计算已经出现在商业领域很多年了。然而,大数据领域刚刚开始感受到它的影响。OvalEdge公司首席执行官Sharad Varshney说,“云计算技术现在已经很成熟,但非主流的分布式技术仍在推动数据管理领域最令人兴奋的发展。也许其中最重要的是数据网格架构。该技术支持去中心化的数据管理,而不是将数据传输到湖泊或仓库,它是在域中工作的。”

许多有远见的企业已经开始把它纳入他们的数据治理和管理战略。Varshney说。“主要的云计算和数据组织已经采用了数据网格技术,这是一个积极的迹象,表明这一关键战略正变得更容易实现。与此同时,与数据管理领域内或外的任何新技术一样,发起文化变革是最重要的障碍之一。”

他警告说。“数据网格技术要求改变用户和上层管理人员访问和查询数据的方式。有些人很难接受将责任从中央权力机构转移到个人身上。首先也是最重要的是信任的问题。然而,一旦克服了这些最初的障碍,那么该技术的有效性应该可以消除内部担忧。”

随着数字产品的兴起,大数据分析出现了一种新的方法——产品分析。Heap公司数据科学主管David Robinson说,“每一个使用数字产品的人都在提供制造商如何使其更成功的信息,像SaaS​、电子商务和移动应用程序这样的数字产品能够跟踪行为数据——浏览量、点击量和用户在使用产品时进行的其他交互。”

他继续说,“产品分析将数据转化为改进产品的可操作的见解,就像上一代分析师和数据库工程师学会了将仓库转化为商业智能一样,我们正在看到从收集的大量行为数据中获取价值的能力发生转变。产品经理和设计师不再需要一次采访几个用户,他们可以看到现实世界中成千上万的用户如何使用他们的产品。企业的董事不必猜测将战略投资应用到产品的何处,他们可以衡量和比较每项投资的影响。”

然而,Robinson警告说,一个需要解决的潜在问题是因果推理。他说,“寻找可操作的产品洞察力的科学是对原因的推理,需要回答‘如果改变这个产品,会对业务结果产生什么影响?’这个问题,行为数据尤其充满了令人混淆的陷阱,粗心的人可能会把相关性当成因果关系。这个问题出现在产品开发过程的每个阶段。产品经理可以使用行为数据来衡量受错误影响的用户数量,但对他们来说更重要的是衡量错误对业务结果的影响。如果产品经理对行为数据不小心,他们可能会得出一个荒谬的结论——比如‘在所有访问者中,在结帐页面遇到错误的用户购买的可能性是其他用户的10倍’,而只是因为这些用户是最先到达结帐页面的用户。”

机器学习数据集

人工智能的背后是机器学习,它将数据用于训练算法和模型。然而,这些任务和所需的数据量是巨大的。Camunda公司高级产品经理Eric Lundberg表示:“数据科学家仍将45%的时间花在数据准备上,而训练有素的数据科学家在全球都存在短缺。能够提供干净的、机器学习准备好的数据的数据系统可以减少数据科学家的时间,并将项目的投资回报率提高到足够高的水平,从而值得投资。如今的软件供应商越来越多地提供机器学习准备好的数据集,并使任何人都能更容易地创建高质量、有意义的机器学习模型。”

提供机器学习就绪的数据集可以完全消除对基本用例的数据管道的需求。Lundberg说,“这也将人工智能的触角伸向了公民数据科学家。任何团队都可以创建自己的机器学习模型,而不是通过对宝贵的数据工程或数据科学资源的激烈竞争来运行项目。”

他警告说,“与此同时,如果企业不是收集数据的人,就不可能保证数据的质量。数据缺失、数据收集不一致或人为错误需要时间来纠正,而这些都与数据收集方法有关。但事情正在朝着正确的方向发展。”

Verta公司创始人兼首席执行官Manasi Vartak表示,为机器学习操作数据对数据的管理和交付方式有很大影响。他说,“一个例子是特征存储的出现,数据科学家使用它来确保跨模型开发和模型生产环境的机器学习模型特征之间的连续性。随着企业进行数字化转型的创新,第一个合乎逻辑的步骤是获取数据,以便对业务问题的潜在人工智能或机器学习解决方案进行研究和试验。既然模型构建能力已经成熟和稳定,操作模型就有了完全独特的需求。特征库是弥合模型构建和模型操作之间鸿沟的一个方面,但对于企业来说,为机器学习操作数据还有很多其他的考虑。”

道德的数据解决方案

塑造该市场的另一个趋势是,旨在确保更合乎道德地部署人工智能的工具和方法的兴起。Diveplane公司销售工程总监Jack Shu表示,“合乎道德地使用人工智能的核心是合乎道德地使用数据。遵守跨司法管辖的治理往往会妨碍数据的可用性。在某些情况下,需要进一步处理,因为原始数据可能表现出偏见或歧视等潜在属性。”

Shu继续说,“数据监控和可观察性也成为了重要的考虑因素,因为大多数数据源不断更新,可能会随着时间推移而漂移。从道德上管理数据所面临的问题是有多种技术可以解决这些挑战,尽管每种解决方案往往只关注问题的一个子部分。例如,合成数据的应用允许遵守GDPR法规,从而允许跨司法管辖区传输数据。也有各种各样的解决方案来减轻偏见和歧视,还有另一套数据监测工具。这就产生了针对每个子问题的专门软件的需求,这可能很快导致成本和复杂性的增加,因为业务用户需要学习和维护多个软件和模型。”

Shu推荐了基于实例的机器学习的应用,它能够使用单一平台来合成数据,监控数据,并在必要时修复数据不需要的属性。Shu警告说,“虽然这样的解决方案现在已经可用,与现有的企业基础设施和机器学习投资的兼容性可能会减缓新技术的采用,如果能够克服在企业范围内采用基于实例的机器学习的障碍,这将为使用单一平台生成合成数据、减少偏见或歧视以及实时数据监控提供可能性。”

数字集成中心

GigaSpaces公司首席执行官Adi Paz表示,“如今IT基础设施错综复杂,构建新的数字服务是一项艰苦的工作,开发周期很长,远远落后于市场需求。数字集成中心有助于通过将记录系统与数字应用程序分离来克服这些障碍。”他表示,企业能够在现有遗留系统之上快速推出原生云数字服务,将开发工作重点放在交付稳定的高性能数字服务流上,而不是将时间花在系统记录集成上。

这样的中心是“中间件”的一种形式,它需要集成到企业IT架构上,并将其连接到组织的不同记录系统上。Paz警告说,“有些企业在开放他们的IT基础设施和在现有架构上添加外部集成层方面犹豫不决。”

 不过他表示,这些中心通过大幅缩短新数字服务的上市时间,促进了业务加速,通过使开发人员能够专注于新的业务逻辑,而不是将时间花在重复的数据集成任务上,有助于推动创新。

交换/数据融合

数据交换和数据融合正在作为预先配置的集成环境出现,它省去了许多减慢数据分析应用程序和功能的前期工作。Smart Sense公司首席产品官Sammy Kolt表示:“数据交换允许企业将其技术合作伙伴平台生成的数据导入到自己的系统中,以便在自己的商业智能或分析工具中使用。当多个数据流被整合到一个数据库中进行额外分析时,就会发生数据融合。像天气和交通这样的外部数据流可以帮助通知和影响需要做出的关键业务决策。例如,当电力、温度、能源、库存和财务数据集组合在一起时,内部数据流会带来复合效应。当供应商和平台超越专有报告,开放他们的系统,并提供对底层结构化数据的访问时,这一切都成为可能。”

Kolt解释说,数据交换和数据融合有助于减轻数据科学团队的工作量。他说,“企业不再只指望使用供应商提供的开箱即用的报告。他们希望能够访问这些数据,这样他们的团队就可以对这些数据进行额外的分析。数据科学团队需要为这种方法做好准备。当企业的数据科学团队没有明确定义或设计良好时,障碍就会出现。创建一个数据科学团队,既关注技术方面,也关注业务分析。”

Kolt说:“那些将自己定位为平台的企业已经发现,他们通过数据交换为客户增加了价值。在某些垂直领域的数据科学成熟度与它们与这一概念的距离之间存在明显的相关性。”

数字资产管理

数字资产管理平台正在崛起,Hyland公司主要内容架构师Alan Porter表示:“在一个存储库中,在正确的时间快速访问正确的资产的需求从未如此之大,而这些资产的数量也从未如此之大。数字资产管理将数据、图像、文件和相关材料集合在一起,消除了这些资产周围的孤岛,并通过适当的元数据输入和标记,使这些资产更容易通过平台检索。”

在早期,数字资产管理主要是由营销部门用于管理内容和资产。他补充说,“快进到今天,技术已经发展到包括产品资产管理,并适用于企业,还包括产品团队和更多的人,以连接内容、数据和其他资产。在庞大的、迅速发展的资产存储库中,员工经常会浪费大量的人力时间来查找和检索所需的文件——或者由于很难找到合适的内容,只能采用拥有的任何资源,从而产生低质量的输出。”

人工智能现在在这些平台的性能中也扮演着关键角色。Porter说:“在该框架之上,一个能够学习不同数据集之间联系的人工智能引擎使这些资产更加有用和实用。”

Porter警告说,DAM平台的有效性依赖于前端准确、完整和详细的元数据输入。为了为搜索特定资产的用户提供最佳结果,平台需要基于最佳数据进行工作。​