点击
上方文字
关注我们
大家好呀!今天我要和你们分享一个在数据分析领域超级好用的Python库 - Pandas!它就像是Excel的超级升级版,可以帮我们轻松处理大量数据。不管你是想分析销售数据,还是处理科研数据,Pandas都能帮你轻松搞定。让我们一起来探索这个强大的工具吧!
1.
1. 初识Pandas
我们需要安装并导入Pandas:
1
pip install pandas # 安装pandas
2
import pandas as pd # 导入pandas并简写为pd
小贴士 :习惯上我们用pd
作为Pandas的缩写,这样写代码时可以少敲几个字母哦!
2.
2. Pandas的两大主角:Series和DataFrame
Series就像是一个增强版的列表,不仅有数据,还有索引:
1
import pandas as pd
3
# 创建一个Series
4
fruits = pd.Series(['苹果', '香蕉', '橙子', '梨'], index=['a', 'b', 'c', 'd'])
5
print(fruits)
DataFrame就像一个Excel表格,有行有列:
1
# 创建一个DataFrame
2
data = {
3
'姓名':['小明', '小红', '小华'],
4
'年龄':[18, 19, 20],
5
'成绩':[90, 85, 95]
6
}
7
df = pd.DataFrame(data)
8
print(df)
3.
3. 数据的基本操作
1
# 读取CSV文件
2
df = pd.read_csv('data.csv')
4
# 读取Excel文件
5
df = pd.read_excel('data.xlsx')
注意事项 :记得把文件路径写对哦,Windows系统的同学要用反斜杠\
或者直接用r'路径'
1
# 查看前5行数据
2
print(df.head())
4
# 查看数据基本信息
5
print(df.info())
7
# 查看数据统计描述
8
print(df.describe())
4.
4. 数据处理小技巧
1
# 筛选年龄大于18的数据
2
df[df['年龄'] > 18]
4
# 筛选多个条件
5
df[(df['年龄'] > 18) & (df['成绩'] >= 90)]
1
# 按成绩降序排列
2
df.sort_values('成绩', ascending=False)
小贴士 :ascending=True
是升序,False
是降序哦!
1
# 删除有缺失值的行
2
df.dropna()
4
# 填充缺失值
5
df.fillna(0) # 用0填充
5.
5. 实用案例
来看一个简单的成绩分析案例:
1
import pandas as pd
3
# 创建学生成绩数据
4
data = {
5
'姓名':['小明', '小红', '小华', '小李', '小张'],
6
'语文':[80, 90, 85, 88, 92],
7
'数学':[95, 88, 92, 90, 85],
8
'英语':[85, 95, 88, 87, 90]
9
}
10
df = pd.DataFrame(data)
12
# 计算每个学生的平均分
13
df['平均分'] = df[['语文', '数学', '英语']].mean(axis=1)
15
# 找出平均分最高的学生
16
best_student = df.loc[df['平均分'].idxmax()]
17
print(f“最高分学生:{best_student['姓名']},平均分:{best_student['平均分']}”)
6.
练习小题
试试用Pandas创建一个你的课程表DataFrame
尝试计算上面例子中每门课的平均分
如何找出哪门课程的及格率最高?
7.
总结要点
Pandas的两个核心数据结构:Series和DataFrame
基本的数据读取和查看方法
常用的数据处理功能:筛选、排序、处理缺失值
实际案例的操作思路
小伙伴们,今天的Python学习之旅就到这里啦!记得动手敲代码,有问题随时在评论区问我哦。相信经过今天的学习,你已经掌握了Pandas的基础用法。接下来要多加练习,数据分析的大门就为你打开啦!祝大家学习愉快,Python学习节节高!
点个赞
再走吧
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/49921.html