处理导入的CSV文件：如何使用Pandas计算统计数据？

2021年9月19日13:17:05 发表评论 2,149 次浏览

Pandas 是一个强大的 Python 包，可用于执行统计分析。如何使用Pandas计算CSV统计数据？在本指南中，你将看到如何使用 Pandas 从导入的 CSV 文件中计算统计数据。

Pandas CSV计算统计数据：这个例子

如何使用Pandas计算统计数据？为了演示如何从导入的 CSV 文件计算统计数据，让我们查看一个包含以下数据集的简单示例：

名称	工资	国家
Dan	40000	USA
Elizabeth	32000	Brazil
Jon	45000	Italy
Maria	54000	USA
Mark	72000	USA
Bill	62000	Brazil
Jess	92000	Italy
Julia	55000	USA
Jeff	35000	Italy
Ben	48000	Brazil

从导入的 CSV 文件计算统计数据的步骤

步骤 1：将数据集复制到 CSV 文件中

如何使用Pandas计算CSV统计数据？首先，你需要将上述数据集复制到 CSV 文件中。然后将 CSV 文件重命名为stats。

第 2 步：将 CSV 文件导入 Python

接下来，你需要使用此模板将 CSV 文件导入 Python：

import pandas as pd
df = pd.read_csv (r'Path where the CSV file is stored\File name.csv')
print (df)

以下是存储 CSV 文件的路径示例：

C:\Users\Ron\Desktop\stats.csv

因此，导入stats CSV 文件的完整代码如下（请注意，你需要修改路径以反映 CSV 文件在你的计算机上的存储位置）：

import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv')
print (df)

Pandas统计CSV数据 - 在Python 中运行代码（根据你的路径进行调整）后，你将获得以下DataFrame：

        Name  Salary Country
0        Dan   40000     USA
1  Elizabeth   32000  Brazil
2        Jon   45000   Italy
3      Maria   54000     USA
4       Mark   72000     USA
5       Bill   62000  Brazil
6       Jess   92000   Italy
7      Julia   55000     USA
8       Jeff   35000   Italy
9        Ben   48000  Brazil

第 3 步：使用 Pandas 从导入的 CSV 文件中计算统计数据

最后一步的目标是使用 Pandas 包计算以下统计数据：

平均工资
工资总额
最高工资
最低薪资
工资数
工资中位数
工资标准差
工资差异

此外，我们还会做一些分组计算：

工资总额，按国家/地区列分组
按国家/地区列分组的工资计数

如何使用Pandas计算CSV统计数据？准备好后，运行下面的代码，以便使用Pandas从导入的 CSV 文件中计算统计数据。如前所述，你需要更改路径名（代码中的第 2 行）以反映 CSV 文件在你的计算机上的存储位置，如下Pandas CSV计算统计数据实例：

import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv') 

# block 1 - simple stats
mean1 = df['Salary'].mean()
sum1 = df['Salary'].sum()
max1 = df['Salary'].max()
min1 = df['Salary'].min()
count1 = df['Salary'].count()
median1 = df['Salary'].median() 
std1 = df['Salary'].std() 
var1 = df['Salary'].var()  

# block 2 - group by
groupby_sum1 = df.groupby(['Country']).sum() 
groupby_count1 = df.groupby(['Country']).count()

# print block 1
print ('Mean salary: ' + str(mean1))
print ('Sum of salaries: ' + str(sum1))
print ('Max salary: ' + str(max1))
print ('Min salary: ' + str(min1))
print ('Count of salaries: ' + str(count1))
print ('Median salary: ' + str(median1))
print ('Std of salaries: ' + str(std1))
print ('Var of salaries: ' + str(var1))

# print block 2
print ('Sum of values, grouped by the Country: ' + str(groupby_sum1))
print ('Count of values, grouped by the Country: ' + str(groupby_count1))

Pandas统计CSV数据 - 在 Python 中运行代码后，你将获得以下结果：

Mean salary: 53500.0
Sum of salaries: 535000
Max salary: 92000
Min salary: 32000
Count of salaries: 10
Median salary: 51000.0
Std of salaries: 18222.391598128816
Var of salaries: 332055555.5555556
Sum of values, grouped by the Country:
Country        
Brazil   142000
Italy    172000
USA      221000
Count of values, grouped by the Country:
Country              
Brazil      3       3
Italy       3       3
USA         4       4

如何使用Pandas计算统计数据？你刚刚看到了如何使用Pandas计算简单的统计数据。你可能还想查看 Pandas文档以了解更多关于这个强大库的力量！

Pandas CSV计算统计数据：这个例子

从导入的 CSV 文件计算统计数据的步骤

步骤 1：将数据集复制到 CSV 文件中

第 2 步：将 CSV 文件导入 Python

第 3 步：使用 Pandas 从导入的 CSV 文件中计算统计数据

发表评论取消回复

登录 注册 找回密码

登录注册找回密码