《Spark商业案例与性能调优实战100课》第14课:商业案例之纯粹通过DataSet进行电商交互式分析系统中特定时段购买金额Top10
和访问次数增长Top10
结合生产实际,json格式换成parquet格式,数据有问题,改回json
val userInfo=spark.read.format("parquet").parquet("parquet file's path ...")
val userAccessLog=spark.read.format("parquet").parquet("parquet file's path ...")
val userInfo=spark.read.format("json").json("json file's path ...")
val userAccessLog=spark.read.format("json").json("json file's path ...")
val userInfo=spark.read.json("json file's path ...")
val userAccessLog=spark.read.json("json file's path ...")
//检查数据
usersInfo.select("time").show()
usersInfo.show()
//检查schema
userInfo.printSchema()
userAccessLog.printSchema()
