一、Griffin概述
1、Griffin 简介
Apache Griffin是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度度量数据资产,从而提升数据的准确度和可信度。例如:离线任务执行完毕后检查源端和目标端的数据数量是否一致,源表的数据空值等。
2、Griffin 架构原理但由于Griffin有着较为严重的版本依赖,因此无法在最新版本的数据仓库架构中兼容进去。目前只能使用2.x版本的Spark和hadoop,进行数据质量监控。
二、Griffin安装及使用 1、安装前环境准备1)安装ES5.2
上传elasticsearch-5.2.2.tar.gz到hadoop102的/opt/software目录,并解压到/opt/module目录:
[yyds@hadoop102 software]$ tar -zxvf elasticsearch-5.2.2.tar.gz -C /op