您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 大数据 > 正文

掌握这五类数据科学项目,找到一份好工作

发表于:2018-08-10 作者:谢涛 来源:it168网站

也许你一直在MOOC平台上学习数据科学,也熟读了一大堆教科书,但要获得数据科学相关的职位,你还需要向雇主展示自己的技能水平。最好的方式是作品集,你可以借此向雇主表明你所一直学习的技能能够用于工作中,为公司创造价值。

要展示自身技能,这5种类型的数据科学项目可供参考:

1、数据清理

在一个项目中,数据科学家往往需要花费高达80%的时间来清理数据。对于团队来说,这是一个巨大的痛点。如果你能证明你在清理数据方面经验丰富,那么你就会显得非常有价值。创建数据清理项目,寻找一些脏乱的数据集,然后就可以开始清理了。

如果你常用Python,Pandas是一个很好的库;如果你常用R,可以使用dplyr包。确保展示以下技能:

  • 导入数据
  • 加入多个数据集
  • 检测缺失值
  • 检测异常
  • 输入缺失值
  • 数据质量保证

2、探索性数据分析

数据科学的另一个重要方面是探索性数据分析(EDA)。这是生成问题的过程,包括使用可视化对其进行调查。EDA允许分析师从数据中得出结论以推动业务影响。它可能包括基于客户群体的有趣洞察,或基于季节性影响的销售趋势。通常,你可以获得一些并非出于初始动机的有趣发现。

用于探索性分析的一些有用的Python库是Pandas和Matplotlib。对于R来说,ggplot2包会很有用。EDA项目应该显示以下技能:

  • 能够为调查制定相关问题
  • 识别趋势
  • 识别变量之间的协变
  • 使用可视化(散点图,直方图,框和晶须等)有效地传达结果

3、交互式数据可视化

交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的最终用户都很有用。仪表板允许数据科学团队进行协作,并一起将所获得的洞察“绘制”出来。更重要的是,它们为面向业务的客户提供了一种交互式工具——这些人专注于战略目标而非技术细节。通常,数据科学项目的可交付成果将以仪表板的形式出现。

对于Python用户,Bokeh和Plotly库非常适合创建仪表板。对于R用户,RStudio的Shiny软件包很有必要。你的仪表板项目应突出显示以下重要技能:

  • 包括与客户需求相关的指标
  • 创建有用的功能
  • 逻辑布局(“F模式”便于扫描)
  • 创建最佳刷新率
  • 生成报告或其他自动操作

4、机器学习

机器学习项目是数据科学作品集中的另一个重要部分。在你启动和开始构建一个深度学习项目之前,请退后一步。相对于建立复杂的机器学习模型,你更应该坚持基础。线性回归和逻辑回归是很好的开始。这些模型更易于解释并与上层管理者沟通。我还建议最好做一些对业务有影响的项目,例如预测客户流失,欺诈检测或贷款违约。对面试官而言,这些比识别花的类型更有吸引力。

如果你是Python用户,可使用Scikit-learn库。对于R用户,可使用Caret包。你的机器学习项目应该传达以下技能:

  • 你选择使用特定机器学习模型的原因
  • 将数据拆分为训练/测试集(k倍交叉验证)以避免过度拟合
  • 选择正确的评估指标(AUC,adj-R ^ 2,混淆矩阵等)
  • 特征工程和选择
  • 超参数调整

沟通

沟通是数据科学家的一个重要技能。有效地传达结果是优秀数据科学家与一个合格的数据科学家之间的区别。无论你的模型多么花哨,如果你无法向队友或客户解释清楚,那么也无法获得他们的支持。幻灯片和笔记本电脑都是很好的沟通工具,你还可以将Jupyter Notebook或RMarkdown文件用于项目沟通。

确保了解你的目标受众是谁。向高管们展示与向机器学习专家展示非常不同。一定要掌握这些技能:

  • 了解你的目标受众
  • 提出相关的可视化
  • 请勿过多地提供幻灯片
  • 确保你的演示文稿流畅
  • 将结果与业务影响相结合(降低成本,增加收入)

确保在Jupyter笔记本或RMarkdown文件中记录你的项目。然后,你可以使用Github Pages将这些markdown 文件免费转换为静态网站。这是向潜在雇主展示你的作品集的好方法。

保持积极态度,继续开发更多项目,你将在数据科学领域找到一份好工作。工作愉快!