pyspark里怎么求百分位数?

  算法/数据结构/数据库 sql    浏览次数:916        分享
0

hive sql里有percentile_approx的函数可以近似求百分位数,pyspark里没有这个函数,怎么在pyspark里求百分位数?

 

chang   2020-02-25 09:07



   1个回答 
3

比如你要对ID进行groupby得到val这列第25和75百分位数,那么可以这么操作

percentiles = F.expr('percentile_approx(val, array(0.25, 0.75))')
new_data = data.groupby('ID').agg(percentiles)


SofaSofa数据科学社区DS面试题库 DS面经

简Cheng   2020-02-26 20:30

太牛X了,谢谢 - chang   2020-02-29 22:08


  相关主题

pyspark里转成整数型报错TypeError: unexpected type:   1回答

pyspark获取当月的最后一天的日期?   1回答

怎么用pyspark取出hive表里的json串中某一个key的值?   1回答

pyspark里怎么把类似‘yyyy-mm-dd‘的字符串转成星期几的形式?   1回答

spark里怎么refresh表?   3回答

pyspark里怎么把一列日期转成是全年的第几周?   2回答

怎么对pyspark.sql.dataframe按照某一列降序排列?   1回答

pyspark里怎么查看一个dataframe的schema?   1回答

怎么在pyspark中查看一个表格的partition?   1回答

pyspark返回每个分组某个值最大的行   1回答

pyspark中怎么对dataframe里的行按照列去重?   1回答

怎么在pyspark里把dataframe写入csv文件?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!