您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

释放非结构化数据力量的八个技巧

发表于:2024-01-09 作者:计算机世界 来源:计算机世界

充分利用企业数据是当今 IT 领导者最关心的问题。随着企业在业务决策中寻求更多的数据驱动,IT 领导者必须制定数据战略,以便从数据中创造价值,无论数据存在于何处或以何种形式存在。

对于许多企业来说,文本、视频、音频、社交媒体、图像、传感器和其他格式的非结构化数据仍然是难以捉摸和尚未开发的。据行业研究估计,多达 90% 的企业数据是非结构化数据,但根据 Foundry 的研究,61% 的 IT 领导者表示,管理非结构化数据是他们组织面临的一个问题,另有 24% 的 IT 领导者甚至没有将非结构化数据列入他们的数据和分析短名单。

非结构化数据资源对于获得业务洞察力和解决问题极具价值。关键在于如何创造这种价值。能够熟练利用这些庞大信息资源的企业,可以在为关键业务流程提供可操作的洞察力方面获得显著优势。

下面我们来看看那些富有创造力的企业是如何将非结构化数据转化为商业价值的,以及如何让非结构化数据为您的组织工作的一些技巧。

01 |增强创意流程

移动游戏开发公司 RetroStyle Games 的数据分析师 Ivan Konoval 说,在该公司,非结构化数据已被证明是一座 “金矿”,可直接促进业务增长和游戏改进。

在 RetroSyle Games 使用非结构化数据的众多方式中,影响最大的可能是收集概念图和音频数据。

Konoval 说:“我们游戏开发人员的创意过程往往始于草图、情绪板或概念图。"这些作品虽然没有结构,但却捕捉到了我们希望在游戏中表达的精髓。为了确保这些作品不会遗失在其他作品中,并在将来制作游戏续集时可以很容易地找到,我们使用了先进的图像识别工具。”

这些工具会对作品中的各种元素进行分类和标记,无论是角色、风景还是其他元素。Konoval 认为:“这样我们的美术师和开发人员就能快速找到相关的作品,从而保证设计的一致性,加快开发进程。此外,这个系统还允许我们存储有关公司艺术品开发的信息,这在培训新员工时非常有用。”

关于音频数据,配音在玩家的游戏世界体验中起着关键作用,科诺瓦尔说:“我们从游戏中的对话、背景声音和玩家语音聊天中收集了大量数据。通过语音识别和声音分析,我们可以提取出细微差别,如情绪和情感。”

例如,如果某个对话框导致玩家始终带着兴奋的情绪进入语音聊天,开发人员就会注意到这一点。同样,背景噪音等与环境不符的异常情况也会被识别出来并加以解决。

Konoval 说:“从这些音频数据中获得的洞察力直接有助于改善游戏的音频体验,确保玩家在游戏中始终保持情感投入,并与环境互动。”

Konoval 指出,游戏是动态的,游戏产生的数据也是动态的。游戏内聊天情感分析等功能需要实时处理,以过滤玩家的不当行为。他说:“我们利用 Apache Kafka 等流处理框架解决了这个问题。这使我们的游戏管理员能够实时应对任何新出现的模式和问题。”随着每款游戏的发布和更新,处理的非结构化数据量都会呈指数级增长。他说:“如此庞大的数据量给存储和高效处理带来了严峻的挑战。”

为了解决这个问题,RetroStyle Games 投资了数据湖。Konoval 说:“这不仅使我们能够存储大量非结构化数据,还能对其进行高效查询和分析,为我们的数据科学家和开发人员提供即时访问所需的信息。”

02 |为生成式人工智能提供动力

员工识别和体验软件供应商 Workhuman 正在其基于云的平台上以多种方式利用非结构化数据,该公司分析主管兼执行董事 Jesse Harriott 表增:“非结构化数据是最普遍的数据形式,但也是最难有效利用的数据。”

"哈里奥特说:"非结构化数据是最普遍的数据形式,但也是最难有效使用的数据。

Workhuman 云包含来自世界各地员工的数百万条表扬信息,他们分享了对同事的积极反馈。

Harriott 说:“他们用自己的话来表达,因此每个表扬时刻都是完全独一无二的。我们利用这些数据建立人工智能模型,帮助公司更好地定义员工在组织中的合作方式、信息中最常出现的主题以及整个组织的表彰奖励是否公平。”

该公司还使用大型语言模型(LLM)来总结一段时间内的表彰趋势,并为有效的表彰信息提供语言建议。

Harriott 说:“我特别自豪的一项举措是我们的工具 Inclusion Advisor,这是一个基于人工智能的即时辅导工具,可以在奖励语言发送给受奖人之前,识别并建议纠正无意识的偏见。”

从非结构化数据中获取价值所面临的最大挑战之一是,对于企业重点关注的业务用例而言,获得可靠、有效的培训数据的途径有限。

Harriott 表示:“你可以拥有大量的非结构化数据,但如果没有有效的训练数据来创建和验证模型,进度和质量都会受到影响。利用 LLM 当然可以在这方面有所帮助,但现有的 LLM 无法有效捕捉许多业务用例。”

此外,Harriott 指出:“在 LLM 中,训练数据仍可能存在偏差问题。Workhuman 有一个语言学团队,负责数据注释、增强和验证,以解决其中的一些问题。我们还与大型跨国客户合作,确保模型产生有意义和有用的结果。”

03 |将非结构化数据转化为价值的技巧

Harriott、Konoval 和其他数据专家就如何确保在处理非结构化数据时取得成功提出了建议。

1. 将计划与业务成果挂钩。Harriott 认为,IT 领导者应确保利用非结构化数据的计划与业务需求紧密结合,并得到高管的支持。

Harriott 说:“通常情况下,一个团队可能对非结构化数据有一个创造性的使用案例,但与关键业务成果之间的联系对其他人来说并不明显,因此可能会失去支持。领导者有责任让组织了解使用案例为何重要,以及如何直接或间接地推动业务效益。”

2. 认可过程。此外,数据领导者还应该设定并庆祝计划的里程碑,尤其是考虑到利用非结构化数据创造价值的挑战有多么困难。

Harriott 说:“让非结构化数据具有可操作性可能需要比业务预期更多的时间和精力。通过认可里程碑,领导者可以让其他利益相关者了解正在取得的进展,还可以确保团队成员对他们为实现非结构化数据可操作性所付出的努力感到赞赏。”

3. 质量是第一要务。成功的另一个关键是优先考虑数据质量。

Konoval 说:“垃圾进,垃圾出'这句谚语再恰当不过了。在不确保数据质量的情况下进行分析可能会适得其反。我们一直采取这种方法:清理数据,删除不必要的内容,确保数据符合质量标准。”

Konoval 指出:“在游戏行业。错误的决策可能会导致昂贵的功能开发,而玩家可能不会产生共鸣,更有甚者,可能会出现有损我们声誉的错误。我们严格的数据治理框架确保了我们分析的基础坚如磐石。”

4. 将可操作的数据与信息分开。优先考虑业务用户可以采取行动的数据也至关重要。主机托管和数据服务提供商 DataBank 首席运营官 Joe Minarik 说:“重要的是数据量,以及能够区分哪些是可操作的,哪些是信息性的。”

为了强调这一点的重要性,Minarik 以使用非结构化数据进行系统监控为例。他说:“必须对可操作的方面进行优先排序并快速处理。由于对系统的许多方面都进行了监控,因此一个问题就会从下游设备中产生警报和信息,导致警报、报警和信息过多,需要对这些信息进行筛选,以确定真正需要解决的单一方面。”

5. 充分利用人工智能。继续举例说明,Minarik 指出了人工智能和机器学习在长期分析非结构化数据流方面发挥的重要作用。他说:“它可以帮助你建立系统相关性。这可以让你放弃噪音,立即找到根本问题。”

例如,企业可以部署命名实体识别(NER),这是自然语言处理(NLP)的一个组成部分,重点是识别非结构化文本中的命名实体并对其进行分类,标记如“人”、“组织”或 “地点”。

Minarik 指出:“在实际应用中,实体识别在众多应用中发挥着至关重要的作用。这些应用包括索引和组织内容的信息检索系统、在文本中定位答案的问题解答系统,以及根据识别实体个性化内容的内容推荐引擎。通过识别命名实体并对其进行分类,NER 使数据分析师和系统工程师能够从收集到的大量数据中获得有价值的见解。”

6. 通过可视化确保价值。Minarik 认为,使非结构化数据可用的过程并不止于分析。报告和结果交流是这一过程的高潮。

Minarik 说:“报告通常包括对主要发现、方法和分析意义的结构化呈现。可视化,如图表、图形和仪表盘,有助于以易于理解的格式传达复杂的数据。可视化的表现形式不仅有助于理解,还能让利益相关者更容易识别趋势、异常值和关键见解,确保及时做出数据驱动的决策。”

7. 边做边监控。Minarik 说,另一个有时被忽视的关键做法是需要持续监控和维护。他说:“现实生活中的数据是动态的,不断变化的。持续监控和维护是确保数据长期可用的关键。”

Minarik 表示,关键在于定期清理和执行质量检查,以保持数据的准确性和可靠性。必须及时发现并纠正数据异常、不一致和重复,以防止分析出现偏差或错误。

8. 保持团队技能的敏锐性。最后,投资开发正确的技能是一种良好的做法--鉴于基础工具的不断发展,这项工作必须持续进行。

Konoval 认为:“数据分析的世界,尤其是围绕非结构化数据的分析,是动态的。最小的优势,比如一支熟练掌握最新图像识别技术和分析概念图的团队,就能决定一款游戏是成功还是失败。我们已经看到先进技术的成果如何影响我们游戏的故事讲述和设计,从而带来积极的反馈并提高玩家的参与度。”

来源:www.cio.com