人次是什么意思
百度 监管部门的持续行动,引发人们对该药品的关注。Service Telemetry提供了基于RDMA业务的网络时延测量和在网可视化的技术,可以实现I/O质量可视功能和吞吐量可视功能,该技术适用于IPv4 RoCEv2报文。通过测量网络/存储/计算节点在一个存储IO内的分段时延和RoCEv2报文的传输耗时、有效吞吐率、重传比例,支撑网络监测以及问题定界。
为什么需要Service Telemetry?
随着智能时代的到来,各种业务对海量数据的存储和读写需求日益增大,RDMA业务存在以下运维挑战:
- 网络无法主动感知由拥堵等突发问题导致的业务性能下降或抖动,只能被动等待业务部门报障。
- 当存储IO时延、IOPS(Input/Output Per Second,每秒钟系统能处理的读写请求数量)性能指标恶化时,难以定界问题出现在哪里。
- 分钟级采集精度导致接口计数无差异,无法感知NPU的实际吞吐差异。
- PFC计数不能反应拥塞程度以及对吞吐的影响。
- 网卡、静默丢包类问题难发现,难以定界问题出在哪里。
- 场景化的排障最佳实践缺乏,导致排障时间过长。
为了解决以上挑战,华为公司推出Service Telemetry技术,突破了网络监控的传统局限,提供了基于RDMA业务的I/O质量可视功能和吞吐量可视功能。精准监测并分析I/O时延数据、吞吐量数据,快速识别存储业务性能的下降和网络拥塞程度,为网络问题的快速判断、网络质量优化调整提供了基础,有力地支撑了智能无损网络更广阔的发展。
Service Telemetry是如何工作的?
I/O质量可视
业务流程
如下图所示,Service Telemetry的业务流程涉及以下模块:
Service Telemetry工作流程
- 分析呈现层(iMaster NCE-FabricInsight):呈现业务流量基于IO的性能指标;通过Netconf接口将配置内容下发到设备。
- 设备测量统计层(交换机):
- 计算侧端口:业务报文由计算侧端口进入/流出测量设备,交换机识别特征报文并对其进行IO测量和时延分解,将测量统计结果上报分析器。
- 存储侧端口:业务报文由存储侧端口进入/流出测量设备,交换机识别特征报文并对其进行IO测量和时延分解,将测量统计结果上报分析器。
时延分解方案
Service Telemetry基于IO交互流程,对往返特征报文做关联性匹配,定义IO时延分解对象并进行测量。其时延分解方案如下图所示:
读写IO报文交互过程
- DAL(Data Access Latency):存储设备访问时延,用于排查存储侧问题,读写操作DAL单独测量。
- DPL(Data Preparation Latency):主机数据准备时延,用于排查计算侧侧问题,只有写操作涉及DPL。
- IOL(IO Latency):IO时延,计算侧/存储侧总时延。
- 网络RTT(Round-Trip Time):网络往返时间,区分读和写操作。由iMaster NCE-FabricInsight计算网络RTT=IOL1-IOL2。
吞吐量可视
业务流程
如下图所示,吞吐量可视的业务流程涉及如下模块:
吞吐量可视系统模型
- 分析呈现层(iMaster NCE-FabricInsight):呈现业务流量的吞吐量性能;通过NETCONF接口将配置内容下发到设备。
- 设备业务测量统计层(交换机):业务报文由服务器A进入/流出服务器B,开启吞吐量可视功能后的设备A/设备B,识别RoCEv2报文并测量吞吐量可视指标(单次RDMA传输耗时、RDMA传输的有效吞吐率、RDMA传输发起重传的比例),将测量统计结果上报分析器。
吞吐量监测方案
一次RDMA传输的报文交互过程如下图所示,Sender通过设备Device向Receiver发送RoCEv2报文。
报文交互过程
吞吐量可视功能主要分析以下指标:
- FCT:Flow Completion Time。FCT是指完成单次RDMA传输的耗时。FCT=设备Device收到最后一个数据包的时间-设备Device收到第一个数据包的时间。单位为微秒。
- FET:Flow Effective Throughput。FET是指每秒钟RDMA传输的有效吞吐率。FET(bit/s)=有效吞吐量(bit) / FCT(微秒) x 106。
- FNR:Flow NAK Rate。FNR是指RDMA传输发起重传的比例。FNR=重传数量(NAK个数 )/ RDMA message报文数(不包含重传的报文数量)。
Service Telemetry的典型应用场景
Service Telemetry的典型应用场景如下图所示,交换机支持基于端口使能service telemetry功能。在计算侧和存储侧的服务器接入端口上部署该功能,交换机之间的互联口上无需部署。
Service Telemetry典型应用场景
在业务应用过程中,存在两种常见的使用模式:
日常监控模式 |
维护或重保模式 |
|
---|---|---|
部署位置 |
单点测量(计算侧接口) |
多点协同测量(计算侧接口、存储侧接口) |
方案 |
单点测量+端口轮询方案 采用端口轮询方案限制上送报文量 |
多点测量+感兴趣流方案 通过减少流的数量来限制上送报文量 |
业务指标 |
|
|
适用场景 |
日常监控:全流监控(按端口组时分复用,全流不全包) |
对感兴趣流全程监控(针对感兴趣流的全流全包) |
- 作者: 钱津辰,印蓉蓉
- 最近更新: 2025-08-04
- 浏览次数: 3428
- 平均得分: