pyspark里如何进行SELECT DISTINCT操作?

  统计/机器学习 Python    浏览次数:9537        分享
0

sql里可以SELECT DISTINCT col1, col2 FROM tab

怎么对pyspark的dataframe进行这样的select distinct的操作呢?

 

thatdeep   2018-11-08 10:54



   1个回答 
3


df.select('Col1', 'Col2').distinct()


SofaSofa数据科学社区DS面试题库 DS面经

AlphaCat   2018-11-08 19:51

多谢 - thatdeep   2018-11-22 12:10


  相关讨论

怎么对pyspark.sql.dataframe按照某一列降序排列?

pyspark dataframe的collect()方法是什么意思?

怎么将两个pyspark dataframe以串联的形式合并?

如何获取pyspark DataFrame的行数和列数?

如何对pyspark dataframe删除一列

怎么在pyspark里把dataframe写入csv文件?

pyspark中怎么对dataframe里的行按照列去重?

怎么对pyspark dataframe更改列名

pyspark里unpersist()什么作用?

得到一个pyspark.sql.dataframe中所有列的名称

  随便看看

Random Forest可以用来做聚类?

分类变量,进行One hot编码,维度升高,如何处理?

如何重命名pandas的dataframe的列名

非方阵的逆是什么

怎么从矩母函数(mgf)推导得到概率密度函数(pdf)?