加入收藏 | 设为首页 | 会员中心 | 我要投稿 青岛站长网 (https://www.0532zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

学会数据科学漫长吗?这张能力晋级表给你答案

发布时间:2021-05-13 21:55:25 所属栏目:大数据 来源:互联网
导读:在讨论数据科学能力进程表之前,首先介绍数据科学的三个层次。本节将讨论笔者认为的数据科学能力的三个层次:1级(基础)、2级(中级)和3级(高级)。能力从1级增加到3级。这里将使用Python作为默认语言,即使其他编程语言(例如R,SAS和MATLAB)也可用于数据科学。

在讨论数据科学能力进程表之前,首先介绍数据科学的三个层次。本节将讨论笔者认为的数据科学能力的三个层次:1级(基础)、2级(中级)和3级(高级)。能力从1级增加到3级。这里将使用Python作为默认语言,即使其他编程语言(例如R,SAS和MATLAB)也可用于数据科学。

基础水平

在第一级,你应该学会使用通常以逗号分隔符(CSV)文件格式表示的数据集,应该具备掌握数据基础知识的能力,如数据可视化和线性回归。

1. 数据基础知识

能够操作、清理、结构化、缩放和设计数据。熟练使用pandas和NumPy库,具备以下能力:

  • 知道如何导入和导出以CSV文件格式存储的数据
  • 能够清理、整理和组织数据以进行进一步分析或建模
  • 能够处理数据集中的缺失值
  • 了解并能够应用数据插值技术,例如均值或中位数插值
  • 能够处理类别数据
  • 知道如何将数据集划分为训练和测试集
  • 能够使用诸如归一化和标准化之类的缩放技术来缩放数据
  • 能够通过降维技术(例如主成分分析(PC))来压缩数据

2. 数据可视化

能够理解好的数据可视化的基本组成部分。能够使用数据可视化工具,包括Python的matplotlib和seaborn包和R的ggplot2包。应该了解好的数据可视化的基本组成部分:

  • 数据组件:决定如何可视化数据的重要的第一步是了解数据的类型,例如分类数据、离散数据、连续数据、时间序列数据等。
  • 几何组件:决定哪种可视化适合你的数据,例如散点图、线图、条形图、直方图、Q-Q图、平滑密度图、箱形图、多变量图以及热图等。
  • 映射组件:需要确定将什么变量用作x变量,将什么变量用作y变量。这一点很重要,尤其是当数据集是具有多个特征的多维数据集时。
  • 比例组件:决定使用哪种比例,例如线性比例、对数比例等。
  • 标签组件:包括轴标签、标题、图例、要使用的字体大小等内容。
  • 道德构成要素:确保可视化过程是真实的。在清理、汇总、操作和生成数据可视化效果时注意操作,并确保不会使用可视化效果误导或操纵受众。

(编辑:青岛站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!