pandas
import pandas as pd
path = 'df.csv'
# 读数据
df = pd.read_csv(path, sep=',', usecols=[0, 2, 4])
# 排序
df.sort_values(by=['label'], ascending=True, inplace=True)
# 去除重复数据
df.drop_duplicates(subset='列名', keep='first', inplace=True)
# 删除
df.drop(df[df['标签'] == 'sadness'].index, inplace=True)
# 替换数据
df['label'] = df['label'].map(lambda x: 1 if 'default' in x else 0)
# 重命名
DF = DF.rename(columns={'column_old_name':'column_new_name'})
# 新增列
data['文本长度'] = data['文本'].apply(lambda x: len(str(x)))
# 画直方图
plt.figure()
plt.hist(data['文本长度'], bins=200)
plt.xlabel('text length')
plt.ylabel('count')
plt.title('text length describe')
plt.show()
# 改变列的顺序
df[['a', 'b', 'c']]
newdf = df[['b', 'c', 'a']]
# 改变列名
df.rename(columns={'原列名':'新列名'},inplace=True)
# 拼接两个表
new_df = pd.concat((df1, df2), axis=1) # axis=1 横着拼接
new_df = pd.concat((df1, df2), axis=0) # axis=0 竖着拼接