pandas dataframe对行去重?

  统计/机器学习 数据预处理 Python    浏览次数:7074        分享
0

把重复的都去掉,只保留最后一个,比如有五行,第一行和第二行一样,第四行是不同的,第三行和第五行是一样的,那么就把第一行和第二行都去掉,第三行第五行也去掉,只保留第四行。有什么方法实现吗?

 

小管子   2019-01-14 09:42



   1个回答 
4

对行去重并且不保留重复

df = df.drop_duplicates(keep=False)

对行去重并且保留重复的第一个

df = df.drop_duplicates(keep='first')

对行去重并且保留重复的最后一个

df = df.drop_duplicates(keep='last')
SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2019-01-14 11:09



  相关讨论

pandas groupby agg中使用自定义函数

嵌套dictionary类型数据转成pandas dataframe的问题

pandas怎么求一列的移动中位数?

怎么删去pandas中有空值、nan、null的行?

pandas df怎么根据weekgroup补齐没有的行呢

怎么对pandas dataframe的列求众数

pandas groupby返回组内排序

pandas返回组内某列值最大的行?

对pandas.DataFrame进行groupby结果中index的问题

怎么把collections.Counter的计数结果转为pandas的DataFrame

  随便看看

决策树、随机森林中的多重共线性问题

opencv里waitkey和destroyAllWindows有什么用?

为什么神经网络模型不用交叉验证?

什么是K-Modes(K众数)聚类法?

用户人群分层分析的RFM模型是什么?