您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

数据分析和数据科学的五大不同之处

发表于:2022-04-19 作者:陈峻 来源:51cto

在大数据的世界里,您可能会经常听到两个词语:数据科学(Data Science)和数据分析(Data Analytics)。它们虽然从字面上有些相似,但是在大数据的背景下它们强调的是不同的能力和技能方面。下面,我将从职业决策与规划的角度,和您讨论两者之间的差异。

一、知识储备

无论是数据分析还是数据科学领域,都正在变得更加丰富、更加专业化。因此,如果您想进入这两种职业领域中的任何一种,都需要做好充分的准备,以满足各项实际工作的需求。其中:

数据分析

数据分析领域的相关工作,往往需要事先对RDBMS(关系数据库管理系统,Relational Database Management System)和操作数据结构模式(Structure Schema)的SQL、以及查询开发等方面有所了解。同时,您也需要具备使用R或Python语言,进行统计编程的相关知识。此外,机器学习(Machine Learning,ML)、人工智能(Artificial Intelligence,AI)、自定义算法的开发、以及围绕着信息收集与存储的数据管理知识,也会让您达到事半功倍的效果。简而言之,您需要拥有IT、计算机科学、数学、以及统计学的相关应用知识与技能。

数据科学

数据科学家往往具有计算机科学、信息技术、应用数学或统计学的教育背景。这些核心知识可以为您开展提供、收集、组织、处理和建模业务数据,做好准备。同时,您也可以了解并掌握有关数据可视化、基于API的数据收集与准备等方面的专业知识。这些对于您开展探索性数据分析,遵循和建立模型,以及对模型进行定制化设计与测试等工作,都十分有益。此外,您在基于AI的预测性建模时,前面提到的ML和AI领域的相关技能也总归是技不压身的。

2. 工作角色和职责

无论是数据分析师还是数据科学家,根据专业水平和企业性质的差异,他们的日常角色和工作职能也会有所不同。主要体现在:

数据分析

数据分析师往往主要聚焦于分析、可视化、以及挖掘那些特定于业务的数据。其角色职能包括:

  • 清理、处理、验证、以及例证(exemplify)数据的完整性
  • 对大型数据集进行探索性数据分析
  • 实施​​ETL​​(抽取extract、转换transform、加载load)管道,并进行数据挖掘
  • 使用逻辑回归、KNN(K最邻近,K-NearestNeighbor分类算法)、随机森林、以及决策树,进行统计分析
  • 在编写自动化代码的同时,构建和管理机器学习(ML)库
  • 使用ML工具和算法获得新的数据洞见
  • 识别数据模型,进而做出明智的、以数据为支持的预测

数据科学

数据科学主要涉及到从业务的上下文数据中,获得洞见并得出推论。其角色职能包括:

  • 收集和解释数据
  • 识别数据集中的相关模式
  • 执行基于SQL的数据查询和子查询
  • 使用SQL、Python、SAS(统计分析软件)等RDBMS工具去查询数据
  • 熟练掌握各种预测性、规范性、描述性和诊断性的分析工具
  • 掌握Tableau和IBM Cognos Analytics等可视化工具的使用

3. 基本技能组合

由于这两个角色都属于专业领域,因此它们需要特定的技能集,才能胜任日常的基本工作。具体而言:

数据分析

除了具有问题解决能力的中级统计(intermediate statistics)知识和高级分析技能外,数据分析师的技能还包括:

  • 能够通过Microsoft Excel和SQL数据库,对数据进行切片和切块
  • 运用商业智能工具生成相关报告
  • 通过运用Python、R和SAS等工具,来管理、操作和使用数据集
  • 相对于IT工程经验,数据分析师更需要掌握学习统计、数据库管理、数据建模、以及预测分析等技能。

数据科学

作为数据科学家,您除了需要精通数学、高级统计学、预测性建模、以及机器学习之外,还需要掌握如下领域的软件知识:

  • Hadoop和Spark针对大数据工具的专业知识
  • SQL、NoSQL和PostgreSQL数据库方面的专业知识
  • 了解数据可视化工具和诸如Scala和Python之类的语言

4. 工具谱

常言道:“工欲善其事,必先利其器。”好的工具无论是对于数据分析,还是数据科学都是至关重要。为了便于下载和选用,我将当前市场上的工具,有针对性地进行了分类:

数据分析

  • 数据可视化类:Splunk、QlikView、Power BI、以及Tableau
  • ETL类:Talend
  • 大数据处理类:Spark和RapidMiner
  • 数据分析类:Microsoft Excel、R、以及Python

数据科学

  • 应用数据科学类:SAS、KNIME、RapidMiner、PowerBI、以及DataRobot
  • ETL类:Apache Kafka
  • 大数据处理类:Apache Hadoop、Spark
  • 数据可视化类:Tableau、BigML、Trifacta、QlikView、MicroStrategy、以及Google Analytics
  • 数据分析类:Microsoft Excel、Apache Flink、SAP Hana、MongoDB、MiniTab、以及SPSS
  • 编程类:R、Julia、以及Python
  • 编程库类:可用于针对基于Python数据建模的TensorFlow

5. 职业机会

有了前面的信息,您一定想知道在企业中,会有哪些适合数据分析和数据科学领域的热门职业可供选择呢?

数据分析

  • 商业智能分析师
  • 数据分析师
  • 定量分析师
  • 数据分析顾问
  • 运营分析师
  • 营销分析师
  • 项目经理
  • IT系统分析师
  • 运输物流专家

数据科学

  • 数据分析师
  • 数据工程师
  • 数据库管理员
  • 机器学习工程师
  • 数据科学家
  • 数据架构师
  • 统计员
  • 业务分析师
  • 数据和分析经理

小结

根据上述比较,我们不难发现企业对于数据科学家本身、以及技能上的要求,要比对普通数据分析师的要求高出一些。不过,在职场上,人们通常会以数据分析师的身份开始他们的职业生涯,然后再逐渐转向数据科学领域。对于初学者而言,您也可以从数据架构、以及数据工程的相关职位开始,不断打磨和历练自己,最终成为该领域的专家。

译者介绍

陈峻 (Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验;持续以博文、专题和译文等形式,分享前沿技术与新知;经常以线上、线下等方式,开展信息安全类培训与授课。

原文标题:Data Analysis vs. Data Science: 5 Things to Consider,作者:GAURAV SIYAL