今天,我们的Python之旅,目标是那片由逗号分隔的宝藏——CSV文件。别看它简单,掌握这些技巧,你的数据处理能力将直线上升,轻松驾驭千行万列的数据海洋。让我们一起,用Python的魔力,让CSV舞动起来吧!
安装pandas,是这场冒险的起点。它,是Python数据分析的瑞士军刀。
pip install pandas
导入我们的英雄——pandas,并亲切地叫它pd。
import pandas as pd
data = pd.read_csv('data.csv')
这一行代码,就像渔网一样,把CSV里的所有数据捞到一个DataFrame中。DataFrame,就是你的数据工作台。
print(data.head()) # 前五行print(data.tail()) # 后五行
这就像在快速翻阅书的前几页和最后几页,了解内容概要。
想改列名?简单!
data.rename(columns={'old_name': 'new_name'}, inplace=True)
就像给朋友换个昵称,从此“旧貌换新颜”。
想要特定条件的行?试试这个:
filtered_data = data[data['age'] > 18]
这行代码,就像是在人群中寻找成年人,只留下符合条件的。
计算平均年龄?Python来帮忙!
average_age = data['age'].mean()
一行代码,数据背后的秘密就浮出水面了。
遇到一列数据里藏着两部分内容?用str.split()拆分它们。
data[['first_name', 'last_name']] = data['name'].str.split(' ', expand=True)
就像变魔术,一列瞬间变成两列。
有两份数据要合在一起?pd.concat()或merge()是你的左右手。
combined_data = pd.concat([data1, data2], ignore_index=True)
或者,基于某个键合并:
merged_data = pd.merge(data1, data2, on='common_key')
合并,让数据的力量倍增。
想要特定范围的值?布尔索引来帮忙!
subset = data[(data['age'] > 18) & (data['age'] < 30)]
这就像设置了一个门槛,只让特定年龄段的数据通过。
空值是数据清洗的常客,dropna()和fillna()是你的清洁工具。
clean_data = data.dropna() # 删除空值行# 或者data.fillna(value='default', inplace=True) # 用默认值填充
保持数据的整洁,分析才更准确。
按年龄升序排列?
sorted_data = data.sort_values(by='age', ascending=True)
就像学生们按身高排队,井然有序。
处理完毕,别忘了保存!
data.to_csv('processed_data.csv', index=False)
这样,你的辛苦工作就被永久记录下来了,下次可以直接继续。
有时,我们需要基于复杂的逻辑筛选数据。query()函数可以帮你用接近自然语言的方式进行筛选。
complex_filtered = data.query('age > 18 and city == "New York"')
这就像在对数据说:“给我找出所有年龄大于18且居住在纽约的人。”
CSV中常有日期时间数据,pd.to_datetime()是你的时光机。
data['date'] = pd.to_datetime(data['date'])
这行代码能让字符串形式的日期时间瞬间活过来,便于进一步的时间分析。
想要快速汇总数据?透视表(pivot table)来帮忙。
pivot_table = data.pivot_table(index='city', values='age', aggfunc='mean')
这就像创建了一个小报告,告诉你每个城市人们的平均年龄。
有时,你需要改变列的数据类型,比如将字符串转为整型。
data['age'] = data['age'].astype(int)
这一变,数据的性质就不同了,适合更精准的数学运算。
除了基本的合并,pd.DataFrame.join()提供了更多灵活性,特别是在处理具有相同索引的DataFrame时。
left.join(right, how='inner') # 内连接
选择合适的连接方式,可以让你的数据合并更加精准高效。
虽然不是直接处理CSV,但可视化可以帮助你更好地理解数据。
import matplotlib.pyplot as pltdata['age'].hist()plt.show()
一个简单的直方图,让你一眼看出年龄分布。
本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-96046-0.htmlPython 处理 CSV 文件的 12 个高效技巧
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com