通过本次最佳实践内容,您可以看到ARMS OpenAPI可以灵活的被集成到客户链路监控场景,并对其进行可视化图形展示监控信息。
1. 背景信息应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款应用性能管理产品,能帮助你实现全栈式的性能监控和端到端的全链路追踪诊断,让应用运维更加高效。
本次最佳实践是基于调用ARMS OpenAPI的形式来实现客户应用场景链路监控的可视化图形展示,使用环境为专有云V3.10版本ASCM控制台,调用ARMS OpenAPI接口通过工具Postman进行测试,在第二章节详细介绍了测试环境及测试工具。第三章节通过一个查询所有应用ARMS OpenAPI接口描述调用过程,并且包含该接口需要请求传入的参数接口列表。最后一章节将对一个复杂应用场景,获取链路监控信息使用到ARMSOpenAPI接口,对每个接口列表字段、调用过程及返回结果详细介绍。
最佳实践价值通过调用ARMS OpenAPI在应用场景的使用,直观给阅读者了解到ARMS产品的能力,及ARMS提供一套OpenAPI可以容易的集成到客户应用中,快速实现复杂的微服务链路监控能力,由ARMS监控服务能力涵盖范围能力比较广,包含浏览器、小程序、APP、分布式应用和容器环境,因此完整的监控能力,开发过程中不需要集成多开源组件的形式,使微服务程序监控功能开发简单,让应用运维变得容易。
2. 环境在使用ARMS前您需要按照以下内容对当前的系统环境进行检查。
本次最佳实践基于专有云企业版V3.10.0版本ARMS。
说明:ARMS OpenAPI各个版本变化不大,使用方式保持一致,所以此文档也适用于公共云产品或专有云V3.7.0以上版本。专有云V3.10.0控制台称为ASCM,V3.10.0之前版本为Apsara Stack。
1.登录ASCM控制台。
2.将鼠标指向页面上方导航栏中的产品,单击企业级分布式应用服务EDAS。
图1:ASCM
说明:由于ARMS监控应用数据,需要EDAS产品配合。本次测试先通过EDAS部署一个标准的Spring Boot应用,开通ARMS监控并得到监控数据。
图 2:EDAS控制台
图 3:ARMS控制台
3.测试工具检查。
本实践将会在专有云环境中创建win64虚拟机,然后在虚拟机中安装Postman进行测试。
图4:Postman测试
3. Open API使用 调用URL确认OpenAPI接口均为REST服务,首先确认服务的URL。每个专有云环境域名不同,会导致URL不同。请根据具体环境信息修改URL信息,前缀及端口不变。http://arms.console.example.com:8099/
调用示例-查看所有应用:
API说明URL:http://arms.console.example.com:8099/trace/Services.json
参数列表
{
"code": 200,
"data": {
"details": [
{
"pid": "string", //应用对应的pid
"regionId": "string",
"serviceName": "string" //应用名称
}
],
"services":[ //应用名称列表
"string",
"string"
]
},
"success": true
}
Postman调用结果
参数设置:_userId= 121827433423****
图5:Postman调用结果
4. 应用描述从ARMS中取得应用拓扑数据、曲线图、应用监控指标数据,将通过大屏DataV展示。
图6:DataV展示
5. 查询接口调用次数通过/metric/Metric.json接口获得应用相关性能数据,查询接口调用次数。
API说明- URL :
http://arms.console.example.com:8099/metric/Metric.json - 接口说明:
查询指定应用过往7天的接口调用次数
参数填写示范:
参数设置:
图7:参数设置
结果说明:
- 返回结果为JSON数据集。
- 数据集会标示查询状态,成功返回200,如果失败会返回相应的错误码和错误原因。典型错误例如缺少必要参数、身份认证错误等(是因为filters参数没按格式要求写好)。
- OpenAPI返回的结果集组织形式与查询数据的开始时间、结束时间、数据间隔时间有关。本次查询是查询了过往7天,数据间隔时间设置成了24小时,所以这个结果集里返回了7个”data”的集合。
- 每个data里包括在“measure”和”dimension”里指定的查询,以本结果集为例,就包括:Count:0.0PID:rpcDesc: HTTP入口rpcType:0(HTTP调用)
- 调整查询的开始、结束、间隔时间,会影响data数据的条数,调整接口查询参数会影响每条data里的数据。
- 如果需要计算一些聚合值,比如过往7天总的HTTP调用次数,需要自行把多条data数据进行计算相加后得出结果。
通过/metric/Metric.json 接口获得应用相关性能数据,查询异常数量。
API说明- URL :
http://arms.console.example.com:8099/metric/Metric.json - 接口说明:
查询指定应用过往7天的接口调用次数。
参数填写示范:
参数设置:
图8:参数设置
查询结果:
图9:查询结果
结果说明:
- 返回结果为JSON数据集。
- 数据集会标示查询状态,成功返回200,如果失败会返回相应的错误码和错误原因。典型错误例如缺少必要参数、身份认证错误等(是因为filters参数没按格式要求写好)。
- 本次查询未查到相关数据,所以exception数量为0。
通过/metric/Metric.json接口获得应用相关性能数据,查询当前应用实例数量。
API说明- URL :
http://arms.console.example.com:8099/metric/Metric.json - 接口说明:
查询指定应用过往7天的接口调用次数。
参数填写示范:
参数设置:
图10:参数设置
查询结果:
图11:查询结果
结果说明:
- 返回结果为JSON数据集。
- 数据集会标示查询状态,成功返回200,如果失败会返回相应的错误码和错误原因。典型错误例如缺少必要参数、身份认证错误等(是因为filters参数没按格式要求写好)。
- Openapi返回的结果集组织形式与查询数据的开始时间、结束时间、数据间隔时间有关。本次查询是查询了过往7天,数据间隔时间设置成了24小时,所以这个结果集里返回了7个”data”的集合。
- 每个data里包括在measure和dimension里指定的查询,以本结果集为例,就包括:Count:0.0RootIP
- 本次查询需求是要看此应用一共部署了多少实例,所以对结果中不同IP进行计算,即可以算出共有多少实例数量。另外一个方法是设置intervalInSec的值,让它等查询区间,这样出来的data集合的条数就是实例数量值,因为每个IP都会有条数据。
通过/trace/Dependecies.json接口获得应用拓扑相关数据。
API说明- URL :
http://arms.console.example.com:8099/trace/Dependecies.json - 接口说明:
查询指定应用过往7天的接口调用次数。
参数填写示范:
本测试1月12日进行,查询过去7天的数据。
参数设置:
图12:参数设置
查询结果:
{
"code": 200,
"data": {
"link": [{
"code": 200,
"data": {
"link": [
{
"callCount": 26997.0,
"child": "Demo-Service",
"childNodeId": 731107445,
"childPid": "1218274334230390@db61f75c2******",
"elapsed": 16.2328,
"errorCount": 16.0,
"parent": "USER",
"parentNodeId": 812148234,
"parentPid": "1218274334230390@db61f75c2******",
"protocol": "HTTP"
},
{
"callCount": 8.0,
"child": "pdsa_lhh_rocketmq",
"childNodeId": -1762019072,
"childPid": "pdsa_lhh_rocketmq",
"elapsed": 11190.5,
"errorCount": 8.0,
"parent": "Demo-Service",
"parentNodeId": 731107445,
"parentPid": "1218274334230390@db61f75c2******",
"protocol": "AliWareMQ"
}
],
"nodes": [
{
"elapsed": 0.0,
"errorCount": 0.0,
"id": 812148234,
"name": "USER",
"pid": "1218274334230390@db61f75c2******",
"requestCount": 0.0,
"type": "USER"
},
{
"elapsed": 0.0,
"errorCount": 0.0,
"id": 731107445,
"name": "Demo-Service",
"pid": "1218274334230390@db61f75c2******",
"requestCount": 0.0,
"type": "MQ_PRODUCER"
},
{
"elapsed": 0.0,
"errorCount": 0.0,
"id": -1762019072,
"name": "pdsa_****_rocketmq",
"pid": "pdsa_****_rocketmq",
"requestCount": 0.0,
"type": "METAQ"
}
]
},
"success": true
}
实际拓扑图效果如下:
图13:拓扑图
结果说明:
- 返回结果为JSON数据集。
- 数据集会标示查询状态,成功返回200,如果失败会返回相应的错误码和错误原因。典型错误例如缺少必要参数、身份认证错误等(是因为filters参数没按格式要求写好)。
- 查询结果是一个点线图的节点数据和连接数据,需要使用者自行按照图表控件组装相应数据。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
原文链接:https://developer.aliyun.com/article/785342?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。