全部问题问题热门未解答所有标签标签收藏收藏我要提问

pyspark里怎么求百分位数？

算法/数据结构/数据库 mysql Spark Hive 浏览次数：5114 分享

二维码

手机扫描二维码

面试中常见简答题？

hive sql里有percentile_approx的函数可以近似求百分位数，pyspark里没有这个函数，怎么在pyspark里求百分位数？

chang 2020-02-25 09:07

1个回答

比如你要对ID进行groupby得到val这列第25和75百分位数，那么可以这么操作

percentiles = F.expr('percentile_approx(val, array(0.25, 0.75))')
new_data = data.groupby('ID').agg(percentiles)

SofaSofa数据科学社区 DS面试题库 DS面经

简Cheng 2020-02-26 20:30

太牛X了，谢谢 - chang 2020-02-29 22:08

相关讨论

hive和spark sql的区别是什么？

怎么用pyspark取出hive表里的json串中某一个key的值？

pyspark获取当月的最后一天的日期？

pyspark里怎么查看一个dataframe的schema？

pyspark的dataframe里怎么count每一列的null的数量？

怎么在pyspark中查看一个表格的partition？

pyspark里怎么把类似‘yyyy-mm-dd‘的字符串转成星期几的形式？

pyspark里转成整数型报错TypeError: unexpected type:

hive里的LEFT SEMI JOIN是什么JOIN？

怎么对pyspark的dataframe进行随机抽样？

随便看看

怎么在已有的dataframe中插入一个新列（Pandas）

怎么在matplotlib.pyplot的plot上加上文字？

怎么把dataframe的一列转成整数类型

为什么梯度的反方向是函数下降最快的方向？

python里怎么计算曼哈顿距离？