pandas dataframe对行去重?

  统计/机器学习 数据预处理 Python    浏览次数:572        分享
0

把重复的都去掉,只保留最后一个,比如有五行,第一行和第二行一样,第四行是不同的,第三行和第五行是一样的,那么就把第一行和第二行都去掉,第三行第五行也去掉,只保留第四行。有什么方法实现吗?

 

小管子   2019-01-14 09:42



   1个回答 
3

对行去重并且不保留重复

df = df.drop_duplicates(keep=False)

对行去重并且保留重复的第一个

df = df.drop_duplicates(keep='first')

对行去重并且保留重复的最后一个

df = df.drop_duplicates(keep='last')
SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2019-01-14 11:09



  相关主题

对pandas.DataFrame进行groupby结果中index的问题   2回答

pandas 如何扔掉同时满足两个特征过滤条件的数据?   1回答

pd.read_csv读取数据时自动跳过空白行   1回答

pandas groupby agg中使用自定义函数   1回答

怎么把collections.Counter的计数结果转为pandas的DataFrame   2回答

pandas读取csv文件遇到UnicodeDecodeError   2回答

pandas操作出现ValueError: The truth value of a Series is ambiguous.   1回答

pandas按照两列sort_values,一个升序一个降序   1回答

pandas怎么读入tsv格式的数据   2回答

怎么添加pandas的dataframe到已有的csv文件,并且不覆盖原内容   1回答

python或者pandas读取excel xlsx文件中指定的一个sheet   1回答

怎么对pandas dataframe的列求众数   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!