您当前的位置: 首页 >  大数据

哆啦A梦_i

暂无认证

  • 1浏览

    0关注

    629博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

【2019全国职业技能大赛大数据技术】任务三:11-数据清洗与分析(25分_题目+答案<图片+分值>)

哆啦A梦_i 发布时间:2021-04-05 17:23:11 ,浏览量:1

【题目】

8、 根据业务发展需要,OTA 平台欲在全国范围内拓展合作酒店,因此请统计全国区域的 OTA 酒店订单预定及完成情况。请根据现有数据及给定参数完成统 计,并写入指定的数据库或数据文件,截图并保存结果。详细描述: 1) 请以上述 5 、(题目数字编号)任务的输出结果作为输入数据源(Hive 中的 rawdata 表),编写 java 程序 com.udf.AreaZone,用于 HQL 中用户自定义函数(UDF)实现地区映射,并编译打包(地区映射表见表 1); 2) 结合 java 函数,使用 HQL 语句统计各地区酒店销售数据。包含字段:地区、总订单、总间夜、实住订单、实住间夜、出租率,同时创建并写入hoteldata 数 据 库 中 的 table3_3 表 , 将 数 据 表 导 出 至 本 地 目 录/home/hadoop/file3_3。 2、 统计以下指定地区酒店相关信息,指定地区包括:东北、华北、华东、华中、西北、西南、华南; 3、 地区中的省份分布参照表 1(表 1:省份分布参照)

地区 省份华东地区 山东、江苏、安徽、浙江、江西、福建、上海华南地区 广东、广西、海南华中地区 湖北、湖南、河南华北地区 北京、天津、河北、山西、内蒙古西北地区 宁夏、新疆、青海、陕西、甘肃西南地区 四川、云南、贵州、西藏、重庆东北地区 辽宁、吉林、黑龙江

具体任务要求: 1) 在 hoteldata 数据库中创建表 table3_3; 2) 编写 java 程序 com.udf.AreaZone,作为 HQL 中用户自定义函数,实现地区映射,并打成 jar 包(包名:hotelclean.jar),将 jar 包引入到 Hive 中,创建临时函数(函数名:AreaZone),将命令与执行结果截图并保存; 3) 使用“com.udf.AreaZone 类”自定义函数,通过 HQL 语句统计各地区酒店销售数据。包含字段:地区、总订单、总间夜、实住订单、实住间夜、出租率,同时写入数据表 table3_3,将命令与执行结果截图并保存; 4) 查看表 table3_3 所有内容,将命令与查看结果截图并保存; 5) 将数据表中内容导出至本地目录/home/hadoop/file3_3,将导出命令及结果截图并保存。

【答案】

1)略(1分)

2)参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )

3)参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )

4)参考答案截图:红框区域结果一致得 1 分;

5)参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )

 

关注
打赏
1556978864
查看更多评论
立即登录/注册

微信扫码登录

0.0398s