Jupyter数据科学实战
上QQ阅读APP看书,第一时间看更新

1.3 数据科学家的工作

行业内大部分数据科学家接受过统计学、数学和计算机科学方面的高级训练,所涉猎的领域之广可延伸至数据可视化、数据挖掘和信息管理。数据科学家的首要任务是提出正确的问题——目的是揭示隐藏在数据中的真相,以此帮助企业做出更明智的商业决策。

数据科学家的工作并不局限于某一特定领域。除科学研究之外,他们还就职于航运、医疗保健、电子商务、航空、金融和教育等多个领域。他们的首项工作是理解业务问题,接着进行数据收集、数据读取、数据格式转换、数据可视化、建模、模型评估,最后部署使用。数据科学家的工作周期如图1-5所示。

图1-5 数据科学家的工作周期

数据科学家80%的工作时间用来收集、清洗和整理数据,留给数据分析的仅有余下的20%。虽然准备数据的过程非常耗时和无趣,但是正确地处理数据至关重要,因为用来构建模型的数据质量与模型的准确性密切相关。此外,模型的效果会随着数据量的增加得到提升,因此数据科学家在数据分析时应该尽可能多地增加有效数据量。

在后续章节中,读者将更加详细地了解以上所提及的成为一名数据科学家的全部必备技能。