pandas 读取 csv 文件
1 | import pandas as pd |
查看pandas的列名以及列数
1 | test_df.columns # 列名 |
pandas 查看某一列的全部数据或部分数据
1 | test_df['a_from_lng'] # 查看该列全部数据 |
查看所有列或者制定列的统计信息
1 | test_df.describe() # 所有列 |
利用前面几列的信息生成新的列
1 | def distance(x1, y1, x2, y2): |
pandas 处理时间特征
1 | # 增加小时和分钟特征 |
pandas 删除无用特征,删除列
1 | test_df.drop('b_time', axis=1, inplace=True) |
pandas 将csv文件保存到本地
1 | test_df.to_csv('./feature.csv') |
pandas将一个list加入到df中
1 | useful_order_count = [balabala...] |
DataFrame 转换成 array 或 list
1 | test_np = np.array(test_df) # np.ndarray() |
Series有多少不重复数据,重复数据有多少
1 | test_df['id'].value_counts() |
输出结果是每个值都对应了多少数量
查看某一列有多少不重复的数据
1 | tmp = test_df.drop_duplicates(subset=['poi']) |
查看DataFrame中有缺失值的列
1 | na_count = test_df.isnull().sum().sort_values(ascending=False) # 找出test_df中有缺失值的列,并按照缺失的数量按照降序打印出来 |
pandas 获得行名
1 | test_df.index |
pandas 显示所有列的信息
1 | pd.options.display.max_columns = None |
将str转换成时间
1 | total_data_useful['Timestamp'] = pd.to_datetime(total_data_useful['Timestamp']) |
dataframe 拼接
1 | total_data = pd.concat([data1, data2, data3, data4, data5, data6]) # 按列拼接 |
查看缺失数据
1 | total= data_df.isnull().sum().sort_values(ascending=False) |
对某一列进行归一化
1 | col_name = 'Total_Flow' |