Pandas 是一个强大的 Python 包,可用于执行统计分析。如何使用Pandas计算CSV统计数据?在本指南中,你将看到如何使用 Pandas 从导入的 CSV 文件中计算统计数据。
Pandas CSV计算统计数据:这个例子
如何使用Pandas计算统计数据?为了演示如何从导入的 CSV 文件计算统计数据,让我们查看一个包含以下数据集的简单示例:
| 名称 | 工资 | 国家 | 
| Dan | 40000 | USA | 
| Elizabeth | 32000 | Brazil | 
| Jon | 45000 | Italy | 
| Maria | 54000 | USA | 
| Mark | 72000 | USA | 
| Bill | 62000 | Brazil | 
| Jess | 92000 | Italy | 
| Julia | 55000 | USA | 
| Jeff | 35000 | Italy | 
| Ben | 48000 | Brazil | 
从导入的 CSV 文件计算统计数据的步骤
步骤 1:将数据集复制到 CSV 文件中
如何使用Pandas计算CSV统计数据?首先,你需要将上述数据集复制到 CSV 文件中。然后将 CSV 文件重命名为stats。
第 2 步:将 CSV 文件导入 Python
接下来,你需要使用此模板将 CSV 文件导入 Python:
import pandas as pd
df = pd.read_csv (r'Path where the CSV file is stored\File name.csv')
print (df)
以下是存储 CSV 文件的路径示例:
C:\Users\Ron\Desktop\stats.csv
因此,导入stats CSV 文件的完整代码如下(请注意,你需要修改路径以反映 CSV 文件在你的计算机上的存储位置):
import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv')
print (df)
Pandas统计CSV数据 - 在Python 中运行代码(根据你的路径进行调整)后,你将获得以下DataFrame:
        Name  Salary Country
0        Dan   40000     USA
1  Elizabeth   32000  Brazil
2        Jon   45000   Italy
3      Maria   54000     USA
4       Mark   72000     USA
5       Bill   62000  Brazil
6       Jess   92000   Italy
7      Julia   55000     USA
8       Jeff   35000   Italy
9        Ben   48000  Brazil
第 3 步:使用 Pandas 从导入的 CSV 文件中计算统计数据
最后一步的目标是使用 Pandas 包计算以下统计数据:
- 平均工资
 - 工资总额
 - 最高工资
 - 最低薪资
 - 工资数
 - 工资中位数
 - 工资标准差
 - 工资差异
 
此外,我们还会做一些分组计算:
- 工资总额,按国家/地区列分组
 - 按国家/地区列分组的工资计数
 
如何使用Pandas计算CSV统计数据?准备好后,运行下面的代码,以便使用Pandas从导入的 CSV 文件中计算统计数据。如前所述,你需要更改路径名(代码中的第 2 行)以反映 CSV 文件在你的计算机上的存储位置,如下Pandas CSV计算统计数据实例:
import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv') 
# block 1 - simple stats
mean1 = df['Salary'].mean()
sum1 = df['Salary'].sum()
max1 = df['Salary'].max()
min1 = df['Salary'].min()
count1 = df['Salary'].count()
median1 = df['Salary'].median() 
std1 = df['Salary'].std() 
var1 = df['Salary'].var()  
# block 2 - group by
groupby_sum1 = df.groupby(['Country']).sum() 
groupby_count1 = df.groupby(['Country']).count()
# print block 1
print ('Mean salary: ' + str(mean1))
print ('Sum of salaries: ' + str(sum1))
print ('Max salary: ' + str(max1))
print ('Min salary: ' + str(min1))
print ('Count of salaries: ' + str(count1))
print ('Median salary: ' + str(median1))
print ('Std of salaries: ' + str(std1))
print ('Var of salaries: ' + str(var1))
# print block 2
print ('Sum of values, grouped by the Country: ' + str(groupby_sum1))
print ('Count of values, grouped by the Country: ' + str(groupby_count1))
Pandas统计CSV数据 - 在 Python 中运行代码后,你将获得以下结果:
Mean salary: 53500.0
Sum of salaries: 535000
Max salary: 92000
Min salary: 32000
Count of salaries: 10
Median salary: 51000.0
Std of salaries: 18222.391598128816
Var of salaries: 332055555.5555556
Sum of values, grouped by the Country:
Country        
Brazil   142000
Italy    172000
USA      221000
Count of values, grouped by the Country:
Country              
Brazil      3       3
Italy       3       3
USA         4       4
如何使用Pandas计算统计数据?你刚刚看到了如何使用Pandas计算简单的统计数据。你可能还想查看 Pandas文档以了解更多关于这个强大库的力量!

