比如一个hive表里有id, field1, field2这些字段,field2是一个很长json串,里面有几十个key,我只需要提取json串中body这个key,用pyspark该如何操作呢?
1个回答
用json_tuple提取,格式为json_tuple(json_field, key)
按照你的字段名字,可以写成下面这样
from pyspark.sql.functions import json_tuple, col
data = spark.table('my_table').withColumn('body_text', json_tuple(col('field2'), 'body'))