Python数据分析实战,小费数据集应用

开发 后端 大数据
本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。

一、数据来源

本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。

  1. import numpy as np 
  2. from pandas import Series,DataFrame 
  3. import pandas as pd 
  4. import seaborn as sns    #导入seaborn库 
  5. tips=sns.load_dataset('tips')  #seaborn库自带的数据集 
  6. tips.head() 

 

Python数据分析实战,小费数据集应用

二、问题探索

  • 小费金额与消费总金额是否存在相关性?
  • 性别、是否吸烟、星期几、聚餐人数和小费金额是否有一定的关联?
  • 小费金额占小费总金额的百分比是否服从正态分布?

三、数据清洗

  1. tips.shape #数据集的维度 

(244,7)

共有244条数据,7列。

  1. tips.describe() #描述统计 

 

Python数据分析实战,小费数据集应用

描述统计结果如上所示。

  1. tips.info() #查看缺失值信息 

 

Python数据分析实战,小费数据集应用

此例无缺失值。

四、数据探索

  1. tips.plot(kind='scatter',x='total_bill',y='tip') #绘制散点图 

 

Python数据分析实战,小费数据集应用

由图可看出,小费金额与消费总金额存在正相关性。

  1. import numpy as np 
  2. from pandas import Series,DataFrame 
  3. import pandas as pd 
  4. import seaborn as sns   #导入seaborn库 
  5. tips=sns.load_dataset('tips')#seaborn库自带的数据集 
  6. tips.head() 

3.0896178343949052

  1. female_tip = tips[tips['sex'] == 'Female']['tip'].mean() #女性平均消费金额female_tip 

2.833448275862069

  1. s = Series([male_tip,female_tip],index=['male','female']) 

male 3.089618

female 2.833448

dtype: float64

  1. s.plot(kind='bar') #男女平均小费柱状图 

 

Python数据分析实战,小费数据集应用

由图可看出,女性小费金额小于男性小费金额。

 

  1. sun_tip = tips[tips['day'] == 'Sun']['tip'].mean() 
  2. sat_tip = tips[tips['day'] == 'Sat']['tip'].mean() 
  3. thur_tip = tips[tips['day'] == 'Thur']['tip'].mean() 
  4. fri_tip = tips[tips['day'] == 'Fri']['tip'].mean()#各个日期的平均小费值 
  5. s = Series([thur_tip,fri_tip,sat_tip,sun_tip],index=['Thur','Fri','Sat','Sun']) 

 

Python数据分析实战,小费数据集应用

 

  1. s.plot(kind='bar') #日期平均小费柱状图 

 

Python数据分析实战,小费数据集应用

由图可看出,周六、周日的小费比周四、周五的小费高。

  1. tips['percent_tip'] = tips['tip']/(tips['total_bill']+tips['tip']) 
  2. tips.head(10) #小费所占百分比 

 

Python数据分析实战,小费数据集应用

 

  1. tips['percent_tip'].hist(bins=50)#小费百分比直方图 

 

Python数据分析实战,小费数据集应用

由图可看出,小费金额占小费总金额的百分比基本服从正态分布。

责任编辑:未丽燕 来源: 今日头条
相关推荐

2020-02-20 10:45:51

Python数据疾病

2023-11-24 14:02:00

Python数据分析

2017-09-18 17:59:23

Hadoop数据分析

2020-05-14 10:19:23

Python可视化分析

2019-08-01 13:09:57

大数据分析建模信息化

2023-05-15 12:41:26

2020-05-13 11:32:28

数据分析数值分析

2019-04-15 13:40:47

大数据分析建模数据数据分析

2015-08-14 10:28:09

大数据

2022-11-11 11:35:14

2022-02-06 11:35:53

SQL数据函数

2021-03-15 10:43:20

大数据数据分析工具

2017-02-16 10:00:26

python数据加载

2019-05-15 15:57:15

Python数据分析爬虫

2020-07-14 16:08:33

数据分析Python笔试

2023-11-24 08:47:36

ScipyPython

2022-11-14 10:36:55

数据科学数据分析

2024-02-07 12:32:00

重构技巧PythonCounter

2020-02-25 16:54:21

数据分析Python疫情

2020-04-30 16:38:21

数据分析可视化代码
点赞
收藏

51CTO技术栈公众号