加入收藏 | 设为首页 | 会员中心 | 我要投稿 青岛站长网 (https://www.0532zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

六种数据解释的基本可视化

发布时间:2021-05-13 21:56:22 所属栏目:大数据 来源:互联网
导读:我们现在可以开始创建可视化并探索数据集。 1. 线图 线图可视化两个变量之间的关系。其中之一通常是时间,以便我们可以看到变量如何随时间变化。 对于杂货数据集,我们可以使用线图来可视化所购买商品的数量随时间的变化。 首先,我们使用Pandas的groupby函

我们现在可以开始创建可视化并探索数据集。

1. 线图

线图可视化两个变量之间的关系。其中之一通常是时间,以便我们可以看到变量如何随时间变化。

对于杂货数据集,我们可以使用线图来可视化所购买商品的数量随时间的变化。

首先,我们使用Pandas的groupby函数计算每天购买的商品数量。


  1. items = grocery[['Date','itemDescription']] 
  2.   .groupby('Date').count().reset_index() 
  3. items.rename(columns={'itemDescription':'itemCount'}, inplace=True
  4. items.head()  
  5. Date item Count  
  6. 2014-01-01 48 1  
  7. 2014-01-02 62 2  
  8. 2014-01-03 54 3  
  9. 2014-01-04 64 4  
  10. 2014-01-05 44 

这是用于创建折线图的matplotlib语法。


  1. plt.figure(figsize=(10,6)) 
  2. plt.title("Number of Items Purchased - Daily", fontsize=16
  3. plt.plot('Date', 'itemCount',  
  4.          data=items[items.Date > '2015-08-01']) 
  5. plt.xlabel('Date', fontsize=14
  6. plt.ylabel('Item Count', fontsize=14
第一行创建一个Figure对象,第二行添加标题,第三行在Figure对象上绘制数据。最后两行添加了x轴和y轴的标签。

该图包含2015-08-01年之后的数据,以供演示。

注意:默认图形大小为(6,4)。我们可以为每个图形分别更改它或更新默认图形大小。


  1. #to get the default figure size 
  2. plt.rcParams.get('figure.figsize')[6.0, 4.0]  
  3. #to update the default figure size 
  4. plt.rcParams['figure.figsize'] = (10,6) 

2. 散点图

散点图通常用于可视化两个数字变量的值。我们可以观察它们之间是否存在相关性。因此,它也是一个关系图。

散点图可用于检查营销数据集中的薪水和支出金额之间是否存在相关性。我们还可以基于分类变量来区分值。

让我们分别创建已婚和单身人士的工资和花费金额的散点图。


  1. fig, ax = plt.subplots() 
  2. plt.title("Salary vs Spent Amount", fontsize=16
  3. ax.scatter('Salary', 'AmountSpent',  
  4.            data=marketing[marketing.Married == 'Married']) 
  5. ax.scatter('Salary', 'AmountSpent',  
  6.            data=marketing[marketing.Married == 'Single']) 
  7. ax.legend(labels=['Married','Single'], loc='upper left'fontsize=12

(编辑:青岛站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!