数据科学家的工作是什么?

数据科学家做什么

计算机科学、建模、数学、统计和分析都用于数据科学。 数据科学家使用这些方面来分析和理解大量数据,以获得有意义的见解。 然后,公司管理层可以使用这些见解来制定战略决策。

数据科学家必须能够执行以下操作才能解释大量数据:

  1. 彻底清理和整理数据,删除任何不必要的信息,并为预处理和建模做好准备。
  2. 创建统计模型以揭示海量数据集中的重要趋势。
  3. 应将您的预测和发现告知利益相关者。

 

数据科学家是为努力解决复杂问题的组织做出客观的、数据驱动的判断的关键。

例如,Netflix 有一个推荐系统,可以跟踪观众之前的观看历史,以预测他们接下来可能想看什么。 这是通过将观众的观看历史与“品味群体”(观看相似内容的用户分组)进行比较,并推荐与他们密切相关的人经常看到的节目来实现的。 机器学习和算法被用来识别这些口味群体,这些群体很可能是由数据科学家团队创建的。

 

数据科学家的角色和职责

‌在他们的日常工作中,数据科学家负责各种职责,包括:

  1. 与非技术利益相关者一起了解业务目标
  2. 考虑如何利用数据来帮助您实现目标。
  3. 从各种来源获取海量数据
  4. 数据挖掘
  5. 数据库管理
  6. 为确保准确性和一致性,对数据进行清理和处理。
  7. 以探索的方式分析数据
  8. 要挖掘数据、发现趋势并提取可操作的见解,您需要设计和实施算法和预测模型。
  9. 分析、评估和改进结果
  10. 为非技术同行和利益相关者提供预测和见解
  11. 正在根据利益相关者的反馈调整模型。

 

正如您所料,数据科学家的职责需要扎实的技术背景和出色的沟通能力,以便清楚地传达他们的发现。

 

作为数据科学家,您需要具备哪些资格?

数据科学家的技能组合通常包括统计分析、机器学习、数学、编程和数据讲故事等。 数据科学家还需要软技能,以便他们能够批判性地思考业务需求并向非技术利益相关者解释他们的结果。

让我们更详细地研究这些领域中的每一个,以确定有抱负的数据科学家应该具备哪些能力。

  1. 卓越的数学能力
    在数据科学中,需要强大的数学能力。 微积分、线性代数和统计学是最普遍认为必不可少的三个数学领域。 然而,对于大多数数据科学工作,统计学是你真正需要了解的唯一数学分支。
  2. 编程语言
    要基于海量数据集清理、分析和构建模型,数据科学家必须编写代码。 Python、R 和 SQL 是数据研究中最常用的一些编程语言。 开源软件库 Apache Hadoop 和分析引擎 Apache Spark 是两种更重要的技术。

 

蟒蛇 是一种用户友好和开发人员友好的面向对象编程语言。 高代码可读性和强大的开发社区是它的两个主要特征。 数据收集、分析、建模和可视化都是它擅长的事情。

 

R

R 是一种免费的开源编程语言和软件环境,适用于聚类、线性和非线性建模、时间序列分析和可视化等统计和图形应用程序。 它在学术环境中比在工业中更常用。

SQL

SQL 是一种用于连接关系数据库并与之通信的编程语言。 它还允许程序员识别特定的数据子集并根据预定标准过滤、排序和汇总它们,从而使数据预处理更加容易。

Hadoop的

Apache Hadoop 是一个开源软件平台,可在分布式计算环境中实现海量数据集的存储和并发处理。 结合 RDBMS 系统,数据科学家经常使用 Hadoop 作为文件存储。 ‌‌

火花

Apache Spark 是一种内存数据分析引擎,以其可扩展性、闪电般的处理速度和高级分析功能而著称。 Spark 支持映射和缩减函数、SQL 查询、数据流以及复杂的机器学习和图形算法。 ‌‌

虽然您不必成为上述所有方面的专家才能开始,但您应该能够编写代码并且对这些技术有一定的经验。

机器识别

机器学习是对从大量数据中学习以自动改进自身的计算机算法的研究。 这些算法使用统计数据来搜索海量数据集中的模式。 数据科学家可以使用机器学习技术来创建基于数据的预测。

数据讲故事

数据科学家工作的很大一部分是向非技术人员解释他们的发现。 数据科学家必须通过提取与他们正在协助应对的业务挑战相关的可行见解来实现这一目标。

软技能

数据科学家还需要商业知识、批判性思维、分析性思维和人际交往能力等软人才。

 

数据科学是一条有前途的职业道路吗?

数据科学是一个有很多进步选择的领域。 自 2012 年以来,数据科学的就业增长激增了 650%,美国劳工统计局预测到 11.5 年该领域将新增 2026 万个就业岗位。

 

常用的数据科学家职位

数据科学家可以担任多种角色,包括:

  1. 数据科学家
    数据科学家使用数据过程和算法创建预测模型,以帮助做出客观的决策。
  2. 数据分析师
    为了支持企业选择,数据分析师调查、更改和分析大量数据。 与数据科学相比,该过程通常技术性较低。 他们还可以跟踪网络分析、进行 A/B 测试并生成管理报告。
  3. 数据工程师
    数据工程师负责实时或批量处理存储的数据。 清理、聚合和组织来自各种来源的数据,以及将其传输到数据仓库,都是此过程的一部分。 数据工程师还创建数据管道,使数据科学家更容易访问数据。
  4. 商业智能 (BI) 开发人员
    BI 开发人员创建新的应用程序或采用技术来帮助业务用户查找和理解他们做出客观的、数据驱动的业务选择所需的数据。

数据科学家的薪水是多少?

根据 Robert Half Technology 的 2020 年薪酬指南,数据科学家的平均年薪为 105,750 美元至 180,250 美元。 另一方面,薪酬可能会因地点和工作职能的不同而有很大差异。 ‌‌

资历也会影响薪酬。 对于更高级的数据科学角色,以下是一些薪酬估算:

  • ▪ 高级数据科学家 138,226 美元
  • ▪ 数据科学经理 154,304 美元
  • ▪ 数据科学总监:164,716 美元

 

是什么让数据科学家与数据分析师不同?

数据科学家的职能经常与数据分析师的职能混淆。 数据科学家负责创建数据建模技术和算法以创建预测模型。 与数据分析师相比,他们的工作更具技术性,需要更高的资历。

另一方面,数据分析师收集、组织和分析数据,以发现关键见解并得出结论。 他们可能会采用统计或商业智能技术(例如 Microstrategy)来帮助利益相关者进行数据解释和报告准备。

 

在数据科学领域找到一份工作

数据科学能力通常建立在强大的数学和计算机科学基础之上。 如果您还不具备入门级数据科学职位所需的技术专长,您可以采用以下三种途径之一:

  1. 自我教学
  2. 训练营
  3. 高等教育

 

最后,每条道路都有自己的优点和缺点。 考虑您的个人学习风格。 您可以通过回答几个关于您的学习风格的关键问题来选择要选择的路径。 例如,你是否学得更好,如果你:

  1. 分组工作还是单独工作?
  2. 亲自会面还是通过互联网开展业务?
  3. 快还是慢?
  4. 读还是自己做?

‌‌

途径一:自学

自我教育需要极大的自制力。 为确保您专注于正确的技能,您还应该进行广泛的研究和评估。 如果您走这条路,有许多书籍和在线工具可以为您提供帮助。

书籍和其他材料

艾莉森的数据科学简介

这个免费的三小时在线课程涵盖了数据科学技术、入门机器学习和数据结构的数据模型。

使用 Dataquest 学习数据科学的 R、Python 和 SQL

“Python for Data Science”、“Exploratory Data Visualization”、“Data Cleaning and Analysis”、“Fundamentals of SQL”和其他免费的数据科学学习工具可在此在线培训网站上获得。

约翰霍普金斯大学和 Coursera:数据科学专业化

通过 Coursera,约翰霍普金斯大学的教师开发并教授了 XNUMX 门数据科学专业入门课程。 “R 编程”、“探索性数据分析”、“回归模型”和“实用机器学习”等课程是该专业的一部分。

IBM数据科学专业证书

这个九门课程的数据科学课程涵盖了 Python、SQL、数据库、数据可视化、统计分析、机器学习技术和预测建模。 该计划还允许您通过包含使用 IBM Cloud、数据科学工具和真实数据集的项目来开发数据科学组合。

数据科学免费试用

新加坡编码俱乐部的数据科学入门和免费试用课程涵盖 Python 和机器学习,由我们全日制数据科学课程的第一个模块组成。

 

自学的优缺点

优点

  1. 自学是免费的或负担得起的。
  2. 您可以选择按照自己的进度学习。
  3. 你可以把额外的时间花在你有困难的科目上。
  4. 您可以自由使用各种来源的各种材料。
  5. 您可以选择通过最能满足您的需求和选择的媒介进行学习。

缺点

  1. 很难保持自我控制。
  2. 很难确保您正在学习正确的技能。
  3. 完成学业后,没有职业指导。
  4. 您没有可用的教育顾问。
  5. 招聘经理可能不会将自学视为有效的教育。
  6. 大多数自学网站不允许您创建作品集。

 

途径 2:训练营

“我如何从头开始成为一名数据科学家?” 你可能想知道。 如果您之前没有数据分析经验,数据科学训练营是一个替代方案。

数据科学训练营是一项集中的短期培训计划,旨在教授成为一名成功的数据科学家所需的技能。

与标准学位课程相比,训练营通常更加亲力亲为,让您可以从事项目。 这样,您将拥有完整的作品集,可以在求职面试中展示您的能力。

 

训练营的优点和缺点

优点

  1. 训练营提供实践学习体验。
  2. 您可以放心,您正在专注于适当的技能和材料。
  3. 大多数大学学位都比较昂贵,训练营可以兼职完成。
  4. 毕业后,几个训练营提供一对一的职业指导。
  5. 您可以与有兴趣在该领域从事职业的其他数据科学家建立联系。
  6. 训练营的讲师了解最新的市场和雇主需求。
  7. 与自学成才的数据科学家相比,招聘经理更喜欢训练营毕业生。

缺点

  1. 训练营以其过高的前期价格而臭名昭著。
  2. 训练营虽然比大学学位短,但可能需要大量的努力和长时间的工作。
  3. 训练营的内容通常不如计算机科学学位课程的内容深入。
  4. 训练营可能是活动的旋风。
  5. 更喜欢计算机科学学位而不是训练营计划的经理仍然存在。

 

途径三:高等教育

最后一种选择是寻求正规的数据科学教育。 数据科学、数据分析、商业分析或类似学科的理学硕士学位是常见的数据科学学位。

攻读学位的好处和坏处:

优点

  1. 您可以放心,您正在专注于适当的技能和材料。
  2. 学位课程可能没有训练营那么严格和快节奏。
  3. 与训练营相比,学位课程通常提供更深入的内容。
  4. 大学提供招聘会、职业服务和其他形式的求职支持。
  5. 您可以向联邦政府申请财政援助。
  6. 许多雇主更喜欢正规的计算机科学或数据科学学位,而不是编码训练营。

缺点

  1. 学位比训练营或自学要贵得多。
  2. 学位课程比训练营花费的时间要长得多。
  3. 许多学位课程需要两年的全日制学习。
  4. 正规的学术机构可能与当前的行业趋势和市场需求脱节。
  5. 学位课程的理论性往往多于实践性。

 

总结

数据科学是一门蓬勃发展、发展迅速的学科,具有很大的扩展空间。 数据科学训练营是学习所需技能的好方法。

如果您准备好付出努力并培养必要的技能,就可以为您的第一份数据科学职业开辟道路。 Singapore Coding Club 可以帮助您培养成为数据科学家所需的能力。 我们提供适合您的学习方式、生活方式和日程安排的全日制和非全日制课程。

享受你的学习之旅!