跳转至

功能列表

本页列出了可观测性 Insight 的功能特性。

类别 子类 描述
仪表盘 平台组件监控 通过原生 Grafana 提供开源精选仪表盘,提供内置仪表盘支持对 etcd、APIServer 等组件进行监控
集群资源监控 对集群、节点、命名空间等多维度提供监控。Grafana 使用的数据源支持查看多集群的数据。
基础设施 多集群监控 提供多集群业务集中可观测
管理员统一管理多集群告警,且满足集群、租户管理员数据隔离
支持持久化集群的指标、日志数据。
集群监控 提供对单个集群的监控概览,可查看该集群的运行状态、了解集群的资源使用情况,以及当前集群正在发生的告警
节点监控 支持查看节点运行状态等,并了解该节点的 CPU、内存、网络等资源变化情况
命名空间监控 支持查看命名空间中运行的资源数量统计,以及命名空间中容器组使用的 CPU、内存量的总和。
容器监控 支持对无状态负载、守护进程、容器组等资源进行监控,可以监控该工作负载的运行状态,可查看正在告警的数量以及 CPU、内存等资源消耗的变化趋势图
事件 支持查看集群中产生的 Kubernetes 事件记录集合,并支持按照事件类型、对象、原因等进行查询。
拨测 基于黑盒监控定期通过 HTTP、TCP 等方式对目标进行连通性测试,快速发现正在发生的故障。
指标 普通查询 普通查询预订了基础指标,选择集群、类型、节点、指标名称等查询条件后可查询资源的变化趋势
高级查询 支持通过原生 PromQL 语句,查询指标图表及数据详情
日志 普通查询 可查询 Node、Pod、Depoyment、Statefulset 等日志,可查询单条日志的上下文内容
支持按照关键字进行搜索
默认按照时间排序,通过直方图可查询日志数量的变化趋势
高级查询 支持原生 lucene 语法,快速查询目标日志
日志上下文 点击单行日志右侧的图标可查看该行日志的上下文信息。
日志下载 支持下载一段时间内的日志
支持导出单条日志上下文的内容
支持自定义日志下载的字段
链路追踪 服务拓扑 管理员可查看接入观测平台和链路采集的服务间的调用关系、健康状态,快速的故障定位
可查看服务间请求的流量方向和关键指标
可快速查看单个服务的实时吞吐量、请求数、请求延时和错误率
服务 可查看当前接入链路数据的服务列表,以及服务最近 15 分钟的吞吐率、错误率、请求延时
点击服务可查看所选服务最近 15 分钟的流量趋势以及该服务操作的聚合指标
调用链 默认查询所选服务最近 15 分钟中的所有请求以及请求状态、延时、Span 数等
点击列表后侧的图标,可查询该链路的相关容器日志和链路日志。
告警中心 活动告警 提供直方图查看告警时间的变化趋势
支持查看所有正在告警的规则及详情
历史告警 可查询自动恢复或手动被解决后的所有告警
告警规则 内置 100+ 告警规则,对集群组件、容器资源等提供预定义的告警规则
管理员可创建全局告警规则,对已安装 insight-agent 的集群进行统一告警
支持通过预定义指标创建告警规则
支持通过编写 PromQL 语句创建告警规则
支持自定义阈值、持续时间及通知方式
可自定义告警的级别,支持紧急、警告、提示三个等级
通知配置 在通知配置页面,可以配置通过邮件组、企业微信、钉钉、Webhook 等方式向用户发送消息
支持同时通知到多个告警对象
消息模板 消息模板功能支持自定义消息模板的内容,并可邮件、企业微信、钉钉、Webhook 的形式通知指定的对象
告警静默 通过配置静默规则,可以在指定时间段内不再接收告警通知。
告警抑制 通过配置抑制规则,可以抑制或阻止与某些特定告警相关的其他告警通知。
日志采集和查询 统一日志采集 统一采集节点、容器、容器内、K8s 事件的日志数据
采集全局管理平台的审计操作,默认不开启采集 k8s 审计日志
日志持久化存储 日志可标注输出到 Elasticsearch 等中间件进行持久化
指标采集 指标数据采集 支持通过使用 ServiceMonitor 自行定义 Pod 发现的 Namespace 范围以及通过 matchLabel 来选择监听的 Service
系统配置 系统配置 系统配置展示指标、日志、链路默认的保存时长以及默认的 Apdex 阈值
支持自定义修改指标、日志、链路数据的存储时间