workflow: update simple alert analysis

pull/17608/head^2
fuwx 1 year ago
parent 68b0f61b52
commit 1b5d7a1da5
No known key found for this signature in database
GPG Key ID: C8FA8C18DFB4702B

@ -1062,11 +1062,11 @@ workflow:
height: 1408
id: '1741497176064'
position:
x: 4507.32604512157
y: 801.7180845339217
x: 4286
y: 904
positionAbsolute:
x: 4507.32604512157
y: 801.7180845339217
x: 4286
y: 904
selected: false
sourcePosition: right
targetPosition: left
@ -1087,8 +1087,8 @@ workflow:
x: 24
y: 68
positionAbsolute:
x: 4531.32604512157
y: 869.7180845339217
x: 4310
y: 972
selectable: false
selected: false
sourcePosition: right
@ -1126,8 +1126,8 @@ workflow:
x: 247.70722025930104
y: 65
positionAbsolute:
x: 4755.033265380871
y: 866.7180845339217
x: 4533.707220259301
y: 969
selected: false
sourcePosition: right
targetPosition: left
@ -1276,8 +1276,8 @@ workflow:
x: 844.0068118865438
y: 800.2561082923241
positionAbsolute:
x: 5351.332857008114
y: 1601.9741928262458
x: 5130.006811886544
y: 1704.2561082923241
selected: false
sourcePosition: right
targetPosition: left
@ -1299,11 +1299,11 @@ workflow:
height: 90
id: '1741502839759'
position:
x: 8438
y: 880
x: 8254
y: 904
positionAbsolute:
x: 8438
y: 880
x: 8254
y: 904
selected: false
sourcePosition: right
targetPosition: left
@ -1329,22 +1329,23 @@ workflow:
- id: 2b2ad468-efcd-4bcc-aeb9-d53d2f2770ad
role: user
text: "# 目的\n根据各方向上的北极星指标数据\n分析应用 {{#1741497181784.pod#}} \n是否受到告警事件 {{#1742807803325.alertName#}}的影响,并初步判断告警的根因方向。\n\
# 注意\n输入数据中各方向的数据包含该方向线程耗时数据和该方向的相关数据。如网络耗时会带上应用程序的网络RTT指标。\n# 分析规则\n\
1.先看哪一个类型数据变化最大(显著升高要比其他类型大, 且值变化最大),如果有直接,按下面指定方向给出建议。\n同时结合线程历史P90分析变化确认数据是否在合理区间\n\
注: P90反应最大最小范围内波动。虽然波动幅度可能较大但从长期来看这种波动是正常的。分析数据时需要找出真正的突变即短时间内发生的异常剧烈变化。突变的定义是相比前后的数据点波动值在极短时间内比如\
\ 1-2 个时间步出现显著的跳跃且这种跳跃明显超出正常波动模式例如变化幅度远超平均变化率或与趋势不符。请忽略那些属于正常范围P90范围内内的常规波动只关注异常突变。\n\
如果发现有两种类型变化趋势近似,则优先级从高到低分析\n2.应用程序CPU耗时升高建议检查代码是否有过多嵌套检查出问题后可进行回滚修复\n\
3.应用程序抢占CPU高建议登录机器检查其他应用程序是否在抢占\n4.如果net,epoll升高同时要分析应用rtt是否正常\n如果rtt异常建议用户检查网络是否存在问题如果rtt正常建议用户排查下游问题\n\
5.file类型升高建议查看应用程序是否打开过多文件\n\n# 输出格式 \n## 应用 {{#1741497181784.pod#}}\
\ \n北极星指标变化趋势的总结\n - 列出北极星指标 的变化情况,用简洁语言描述\n- 如果无显著变化,明确说明:“未观察到明显变化”。\n\
## 告警事件初步根因结论 \n- 总结告警 是否影响应用,\n结合服务的北极星指标和相关指标数据分析可能的根因\n同时只能给一个方向的建议。\n\
# 输入数据说明\n\n各方向数据包含线程耗时及相关指标例如网络耗时会附带应用程序的网络 RTT 指标。\n# 分析规则\n识别主要变化方向\n\
找出变化最大的数据类型(显著升高且幅度远超其他类型)。\n如果 CPU 或 runQ 耗时显著升高(且 net、epoll 无明显变化),则定位为\
\ CPU 方向问题,避免误判为网络问题。\n结合线程历史 P90 数据,判断变化是否超出合理区间。\nP90 定义反映最大最小范围内的正常波动。需关注短时间内1-2\
\ 个时间步)的异常突变(显著跳跃,超出平均变化率或趋势),忽略 P90 范围内的常规波动。\n若多种类型变化趋势接近按以下优先级分析从高到低。\n\
根因方向及建议\nCPU 耗时升高:建议检查代码是否存在过多嵌套,确认问题后可回滚修复。\nCPU 抢占高:建议登录机器,检查是否有其他应用程序抢占资源。\n\
Net 或 epoll 耗时显著升高:\n检查网络 RTT单位< 0.05 为正常)。\nRTT 异常建议排查网络问题RTT 正常:建议检查下游服务。\n\
File 耗时升高:建议检查应用程序是否打开过多文件。\n# 输出格式 \n## 应用 {{#1741497181784.pod#}} \n\
北极星指标变化趋势的总结\n - 列出北极星指标 的变化情况,用简洁语言描述\n- 如果无显著变化,明确说明:“未观察到明显变化”。\n##\
\ 告警事件初步根因结论 \n- 总结告警 是否影响应用,\n结合服务的北极星指标和相关指标数据分析可能的根因\n同时只能给一个方向的建议。\n\
认为网络方向有问题时如果RTT正常则描述修改为是下游方向网络问题\n# 输入数据 \n- cpu方向数据\n{{#1742980933811.text#}}\n\
历史CPU耗时P90\n{{#1743149606391.text#}}\n- net 方向数据\n{{#1742981275937.text#}}\n\
历史Net耗时P90\n{{#1743150910103.text#}}\n- file 方向数据\n{{#1742981271838.text#}}\n\
历史file 耗时 P90\n{{#1743152043813.text#}}\n- epoll方向数据\n{{#1742981278010.text#}}\n\
历史epoll耗时P90\n{{#1743152103020.text#}}\n- runq方向数据\n{{#1742981280434.text#}}\n\
历史runq耗时P90\n{{#1743152169252.text#}}\n\n# 注意事项 \n- 使用简洁、清晰的语言,避免技术术语过度堆砌,确保输出易于理解。"
selected: false
历史runq耗时P90\n{{#1743152169252.text#}}\n\n# 注意事项\nP90 数据中JSON 键包括线程 IDmax\
\ 和 min 表示过去 1 小时的最大最小 P90 值。\n输出语言需简洁清晰避免过多技术术语确保易读。"
selected: true
title: llm analysis root cause
type: llm
variables: []
@ -1357,9 +1358,9 @@ workflow:
x: 2472.850022241196
y: 495.6222275962382
positionAbsolute:
x: 6980.176067362766
y: 1297.3403121301599
selected: false
x: 6758.850022241196
y: 1399.6222275962382
selected: true
sourcePosition: right
targetPosition: left
type: custom
@ -1439,12 +1440,12 @@ workflow:
height: 90
id: '1741512806512'
position:
x: 8070
y: 916
x: 7950
y: 904
positionAbsolute:
x: 8070
y: 916
selected: true
x: 7950
y: 904
selected: false
sourcePosition: right
targetPosition: left
type: custom
@ -1452,8 +1453,7 @@ workflow:
- data:
desc: ''
selected: false
template: The service and node information are both empty. The root cause
cannot be analyzed at present.
template: 无关联的pod信息且服务和节点信息均为空信息不足暂时无法分析根因。
title: unsupport alert
type: template-transform
variables: []
@ -1770,8 +1770,8 @@ workflow:
x: 76.97060259216505
y: 363.9210031388636
positionAbsolute:
x: 4584.296647713735
y: 1165.6390876727853
x: 4362.970602592165
y: 1267.9210031388636
selected: false
sourcePosition: right
targetPosition: left
@ -1832,8 +1832,8 @@ workflow:
x: 1013.1944929957504
y: 157.34078070824808
positionAbsolute:
x: 5520.52053811732
y: 959.0588652421698
x: 5299.19449299575
y: 1061.340780708248
selected: false
sourcePosition: right
targetPosition: left
@ -1875,8 +1875,8 @@ workflow:
x: 592.7847463655689
y: 258.56082085093817
positionAbsolute:
x: 5100.110791487139
y: 1060.2789053848599
x: 4878.784746365569
y: 1162.5608208509382
selected: false
sourcePosition: right
targetPosition: left
@ -1905,8 +1905,8 @@ workflow:
x: 2944.360125927147
y: 216.75503228886544
positionAbsolute:
x: 7451.686171048717
y: 1018.4731168227871
x: 7230.360125927147
y: 1120.7550322888656
selected: false
sourcePosition: right
targetPosition: left
@ -2054,8 +2054,8 @@ workflow:
x: 837.913049217997
y: 567.6173152328563
positionAbsolute:
x: 5345.239094339568
y: 1369.335399766778
x: 5123.9130492179975
y: 1471.6173152328563
selected: false
sourcePosition: right
targetPosition: left
@ -2345,8 +2345,8 @@ workflow:
x: 838.2707565556775
y: 677.0915533804653
positionAbsolute:
x: 5345.596801677248
y: 1478.809637914387
x: 5124.2707565556775
y: 1581.0915533804653
selected: false
sourcePosition: right
targetPosition: left
@ -2569,8 +2569,8 @@ workflow:
x: 817.3433448742644
y: 386.77445077825655
positionAbsolute:
x: 5324.6693899958345
y: 1188.4925353121782
x: 5103.343344874264
y: 1290.7744507782566
selected: false
sourcePosition: right
targetPosition: left
@ -2745,8 +2745,8 @@ workflow:
x: 829.6661633624499
y: 478.0639330308825
positionAbsolute:
x: 5336.99220848402
y: 1279.7820175648042
x: 5115.66616336245
y: 1382.0639330308825
selected: false
sourcePosition: right
targetPosition: left
@ -2866,8 +2866,8 @@ workflow:
x: 501.0045489698464
y: 384.9951556082583
positionAbsolute:
x: 5008.330594091416
y: 1186.71324014218
x: 4787.004548969846
y: 1288.9951556082583
selected: false
sourcePosition: right
targetPosition: left
@ -2987,8 +2987,8 @@ workflow:
x: 502.3624003022592
y: 478.98654261939305
positionAbsolute:
x: 5009.68844542383
y: 1280.7046271533147
x: 4788.36240030226
y: 1382.986542619393
selected: false
sourcePosition: right
targetPosition: left
@ -3108,8 +3108,8 @@ workflow:
x: 507.1563167397626
y: 565.5281468443313
positionAbsolute:
x: 5014.482361861333
y: 1367.246231378253
x: 4793.156316739763
y: 1469.5281468443313
selected: false
sourcePosition: right
targetPosition: left
@ -3229,8 +3229,8 @@ workflow:
x: 513.7505744250511
y: 675.3340235425774
positionAbsolute:
x: 5021.076619546621
y: 1477.052108076499
x: 4799.750574425051
y: 1579.3340235425774
selected: false
sourcePosition: right
targetPosition: left
@ -3350,8 +3350,8 @@ workflow:
x: 517.7154434927047
y: 802.0976129954249
positionAbsolute:
x: 5025.041488614275
y: 1603.8156975293466
x: 4803.715443492705
y: 1706.097612995425
selected: false
sourcePosition: right
targetPosition: left
@ -3417,8 +3417,8 @@ workflow:
x: 1523.5849163475727
y: 369.82226364108806
positionAbsolute:
x: 6030.910961469142
y: 1171.5403481750097
x: 5809.584916347572
y: 1273.822263641088
selected: false
sourcePosition: right
targetPosition: left
@ -3485,8 +3485,8 @@ workflow:
x: 1558.557136936397
y: 472.1294984224769
positionAbsolute:
x: 6065.883182057967
y: 1273.8475829563986
x: 5844.557136936397
y: 1376.129498422477
selected: false
sourcePosition: right
targetPosition: left
@ -3555,8 +3555,8 @@ workflow:
x: 1563.9713697080979
y: 586.9524528027102
positionAbsolute:
x: 6071.297414829668
y: 1388.670537336632
x: 5849.971369708098
y: 1490.9524528027102
selected: false
sourcePosition: right
targetPosition: left
@ -3625,8 +3625,8 @@ workflow:
x: 1536.393337231676
y: 714.101728498571
positionAbsolute:
x: 6043.719382353246
y: 1515.8198130324927
x: 5822.393337231676
y: 1618.101728498571
selected: false
sourcePosition: right
targetPosition: left
@ -3693,8 +3693,8 @@ workflow:
x: 1522.4926197483228
y: 809.6780420321629
positionAbsolute:
x: 6029.818664869893
y: 1611.3961265660846
x: 5808.492619748323
y: 1713.678042032163
selected: false
sourcePosition: right
targetPosition: left
@ -3743,9 +3743,7 @@ workflow:
- id: '1742462167200'
name: 内存相关
- id: '1742463856746'
name: '事件类型
容器被killed,重启'
name: 容器重启事件
- id: '1742464231696'
name: 未知类型
desc: ''
@ -3948,8 +3946,8 @@ workflow:
x: 544.0386199547656
y: 125.67116500938346
positionAbsolute:
x: 5051.364665076336
y: 927.3892495433051
x: 4830.038619954766
y: 1029.6711650093835
selected: false
sourcePosition: right
targetPosition: left
@ -4640,24 +4638,23 @@ workflow:
text: 你是一个可观性领域的智能助手,帮助用户分析问题
- id: 2b2ad468-efcd-4bcc-aeb9-d53d2f2770ad
role: user
text: "# 目的\n根据各方向上的北极星指标数据\n分析应用 {{#17430589567120.pod#}}\n是否受到告警事件 {{#1742807803325.alertName#}}的影响,并初步判断告警的根因方向。\n\
# 注意\n输入数据中各方向的数据包含该方向线程耗时数据和该方向的相关数据。如网络耗时会带上应用程序的网络RTT指标。\n# 分析规则\n\
1.先看哪一个类型数据变化最大(显著升高要比其他类型大, 且值变化最大),如果有直接,按下面指定方向给出建议。\n同时结合线程历史P90分析变化确认数据是否在合理区间\n\
注: P90反应最大最小范围内波动。虽然波动幅度可能较大但从长期来看这种波动是正常的。分析数据时需要找出真正的突变即短时间内发生的异常剧烈变化。突变的定义是相比前后的数据点波动值在极短时间内比如\
\ 1-2 个时间步出现显著的跳跃且这种跳跃明显超出正常波动模式例如变化幅度远超平均变化率或与趋势不符。请忽略那些属于正常范围P90范围内内的常规波动只关注异常突变。\n\
如果发现有两种类型变化趋势近似,则优先级从高到低分析\n2.应用程序CPU耗时升高建议用户检查代码是否有过多嵌套检查出问题后可进行回滚修复\n\
3.应用程序抢占CPU高建议用户登录机器检查其他应用程序是否在抢占\n4.如果net,epoll升高同时要分析应用rtt是否正常\n注网络\
\ RTT 指标(单位:秒,若值 < 0.05 则网络正常)\n如果rtt异常升高建议用户检查网络是否存在问题如果rtt正常建议用户排查下游服务问题\n\
5.file类型升高建议用户查看应用程序是否打开过多文件\n\n# 输出格式 \n## 应用 {{#17430589567120.pod#}}\n\
北极星指标变化趋势的总结\n - 列出北极星指标 的变化情况,用简洁语言描述\n- 如果无显著变化,明确说明:“未观察到明显变化”。\n##\
\ 告警事件初步根因结论 \n- 总结告警 是否影响应用,\n结合服务的北极星指标和相关指标数据分析可能的根因\n同时只能给一个方向的建议。建议参考分析规则\n\
认为网络方向有问题时如果RTT正常则描述修改为是下游方向网络问题\n# 输入数据 \n- cpu方向数据\n{{#17430595248160.text#}}\n\
text: "# 目的\n根据各方向的北极星指标数据分析应用 {{#17430589567120.pod#}} 是否受到告警事件 {{#1742807803325.alertName#}}\
\ 的影响,并初步判断告警的根因方向。\n# 输入数据说明\n\n各方向数据包含线程耗时及相关指标例如网络耗时会附带应用程序的网络 RTT\
\ 指标。\n# 分析规则\n识别主要变化方向\n找出变化最大的数据类型显著升高且幅度远超其他类型。\n如果 CPU 或 runQ 耗时显著升高(且\
\ net、epoll 无明显变化),则定位为 CPU 方向问题,避免误判为网络问题。\n结合线程历史 P90 数据,判断变化是否超出合理区间。\n\
P90 定义反映最大最小范围内的正常波动。需关注短时间内1-2 个时间步)的异常突变(显著跳跃,超出平均变化率或趋势),忽略 P90 范围内的常规波动。\n\
若多种类型变化趋势接近,按以下优先级分析(从高到低)。\n根因方向及建议\nCPU 耗时升高:建议检查代码是否存在过多嵌套,确认问题后可回滚修复。\n\
CPU 抢占高:建议登录机器,检查是否有其他应用程序抢占资源。\nNet 或 epoll 耗时显著升高:\n检查网络 RTT单位<\
\ 0.05 为正常)。\nRTT 异常建议排查网络问题RTT 正常:建议检查下游服务。\nFile 耗时升高:建议检查应用程序是否打开过多文件。\n\
# 输出格式\n应用 {{#17430589567120.pod#}}\n北极星指标变化趋势总结\n简述各北极星指标变化情况。\n若无显著变化明确说明“未观察到明显变化”。\n\
告警事件初步根因结论\n说明告警是否影响应用。\n结合北极星指标及相关数据分析可能的根因并给出单一方向建议参考分析规则。\n注若怀疑网络或\
\ epoll 问题,且 RTT 正常,则定位为下游服务网络问题。\n# 输入数据 \n- cpu方向数据\n{{#17430595248160.text#}}\n\
cpu耗时历史P90数据\n{{#1743149089034.text#}}\n- net 方向数据\n{{#17430598979590.text#}}\n\
net耗时历史P90数据\n{{#17431493623970.text#}}\n- file 方向数据\n{{#17430598299820.text#}}\n\
file耗时历史P90数据\n{{#17431493591600.text#}}\n- epoll方向数据\n{{#17430610680150.text#}}\n\
epoll耗时历史P90数据\n{{#17431493655610.text#}}\n- runq方向数据\n{{#17430610794990.text#}}\n\
runq耗时历史P90数据\n{{#17431493682530.text#}}\n\n# 注意事项 \n- P90相关数据中json key为线程id,maxmin对应过去1小时最大最小P90值\n\
- 使用简洁、清晰的语言,避免技术术语过度堆砌,确保输出易于理解。"
runq耗时历史P90数据\n{{#17431493682530.text#}}\n\n# 注意事项\nP90 数据中JSON 键包括线程\
\ IDmax 和 min 表示过去 1 小时的最大最小 P90 值。\n输出语言需简洁清晰避免过多技术术语确保易读。"
selected: false
title: llm analysis root cause
type: llm
@ -4668,10 +4665,10 @@ workflow:
id: '17430596469370'
position:
x: 3678
y: 1236.7761644468628
y: 1239
positionAbsolute:
x: 3678
y: 1236.7761644468628
y: 1239
selected: false
sourcePosition: right
targetPosition: left
@ -6916,8 +6913,8 @@ workflow:
x: 1184.215435237168
y: 391.23328277163773
positionAbsolute:
x: 5691.541480358738
y: 1192.9513673055594
x: 5470.215435237168
y: 1295.2332827716377
selected: false
sourcePosition: right
targetPosition: left
@ -7065,8 +7062,8 @@ workflow:
x: 1183.3553424127522
y: 574.6824876720586
positionAbsolute:
x: 5690.681387534322
y: 1376.4005722059803
x: 5469.355342412752
y: 1478.6824876720586
selected: false
sourcePosition: right
targetPosition: left
@ -7214,8 +7211,8 @@ workflow:
x: 1156.6165679157248
y: 475.1754672301147
positionAbsolute:
x: 5663.942613037295
y: 1276.8935517640364
x: 5442.616567915725
y: 1379.1754672301147
selected: false
sourcePosition: right
targetPosition: left
@ -7363,8 +7360,8 @@ workflow:
x: 1180.802273988861
y: 721.6803898302928
positionAbsolute:
x: 5688.128319110431
y: 1523.3984743642145
x: 5466.802273988861
y: 1625.6803898302928
selected: false
sourcePosition: right
targetPosition: left
@ -7512,8 +7509,8 @@ workflow:
x: 1185.1766094380573
y: 848.576845109292
positionAbsolute:
x: 5692.502654559627
y: 1650.2949296432137
x: 5471.176609438057
y: 1752.576845109292
selected: false
sourcePosition: right
targetPosition: left
@ -7521,6 +7518,6 @@ workflow:
width: 244
zIndex: 1002
viewport:
x: -569.8149689320526
y: -16.852750271002947
zoom: 0.25
x: -1894.4612133909195
y: -99.63042772647532
zoom: 0.3103568397951731

Loading…
Cancel
Save