四维三步法内容质量网络保障工作月报(2月)

扫一扫分享
发布者:😘💕琳儿💋
发布时间:2017-03-06
版权说明:该作品由用户自己创作,作品中涉及到的内容、图片、音乐、字体版权由作品发布者承担。
侵权举报
上一页 下一页
H5,H5页面制作工具
  • 贵州移动互联网室
  • 2017.2

    四维三步法工作月报

  • 目  录
  • 3、工作计划
  • 2、工作内容
  • 1、四维三步法工作模型
  • 开展日常分析工按照DPI、 DNS、 拨测、投诉四个维度,开展全网TOP100网站、TOP10视频 、本省TOP20网站,以及咪咕、魔百和等自有业务的日常质差分析工作;跟进热点变化,从流量、调度、服务质量三个方面,定位、定界质差原因。

    落实问题处理:从IDC引入、Cache缓存、CDN分发、ICP直连等方面入手,落实解决,形成问题解决策略,并推广实施。
    持续评估调整:针对互联网动态变化内容的质量,实时监测引入、缓存、分发效果,逐月优化和总结内容调度、内容质量问题的处理情况报告,持续评估,闭环保障。 

  • 围绕“两聚焦”,多维度采集分析数据,通过细分保障方法、建设支撑手段、优化组织流程、提升重点内容四项举措,全面推进内容网络四维三步法落地。

  • 四维三步法模型

  • 指标:
    流量本省率2月份为77.48%,12月份为73.72%, 指标提升3.76个百分点。
    原因分析:
    本月本省流量贡献较大的Cache厂家为中兴,峰值已经达到123.92Gbps,均值为70.90Gbps。目前缓存业务陆续过度到中兴业务平台(蓝汛和网宿小文件切换到中兴平台),中兴缓存流量也随之增加。
    2月份数据网管新增cdn ott业务的接口,流量增加12Gbps左右,采集数据分母增加,故指标提升幅度较大。

  • DPI维度核心指标(流量本省率)

  • 处理措施:
    • 本月统计出网并建议缓存域名287个,经缓存分析,可缓存域名227个,已经加入缓存。
    • DIP维度分析数据能力提升方法,对建议引入网站进行网站频道流量筛选,通过网站频道访问热度数据提供建议引入网站,增加对视频质差资源分析,并通过ICP调度等方式优化。

  • 定位原因:
    • 对出网的域名进行资源分布探测,发现94%以上域名网内无内容资源。

  • 发现问题:
    • 聚焦TOP100热门网站、TOP10视频、省内TOP20网站,通过DPI维度中访问热度和流量情况,使用分光数据分析,获取TOP15000出网域名,对出网域名进行资源爬取,获得建议缓存域名至少100个。

  • DPI维度
  • 备注:通过端到端系统2月份发现质差域名问题101个,均已发集中化管理工单,并得到妥善解决,有效提高了质差处理效率。 

  • 机房网络质量不好,导致回源有问题:
    • 加大网络质量监控,如有问题及时更换节点源。
    时延高不在服务器侧,可能在用户侧引起问题:
    • 对该类域名取消缓存服务。
    回源被劫持
    • 取消对缓存平台的劫持
    组带宽跑高
    • 安排降量
    cache利用率低
    • 取消缓存
  • 处理措施:
    回源失败问题:
    • 缓存优化,调整回源链路;
    • 取消该域名缓存服务;
    回源节点问题:
    • 采取调整或更换回源节点方式;
    • 源站优化调度;
    源站问题:
    • 对该类质差域名取消缓存服务,加黑处理;
    • 源站不通可以优化回源链路。
    • 源站资源调度调整,优化调度
    • 回源被拒,调整回源路径,改走三方。

  • 定位原因:

  • 发现问题:
    通过互联网质量监控系统端到端平台,对域名质差查询分析,2月份共发现质差域名101个,其中取消缓存域名11个,占 11%; 正常的12个,占比12%;重复出现三次以上的域名18个,均已解决。

  • DPI维度(端到端质差分析)

  • 处理措施:
    通过将资源首次回源添加至本地服务器150;
    增加存储力度,将热门资源加入服务器,优化视频URL 1000个
    另外小部分视频URL资源较小,属于合理范围内出网。

  • 定位原因:
    对已经优化的1980URL内容进行分析:19%服务器资源问题;47%视频网内无资源;34%ICP资源受限,服务器负荷等。

  • 发现问题:
    针对TOP20热点视频,通过爬虫技术对视频内容进行分析,2月发现出网视频URL 3044(主要包括优酷视频、搜狐视频、酷6视频等)。
  • DPI维度(出网视频优化)

  • 指标:
    • 2月份DNS点击本网率为90.22%,环比上升0.39个百分点,达到集团要求指标。总访问量为2556亿次。较1月份下降340亿次
    原因分析:
    • 春节期间用户业访问量降低,导致DNS点击量下降,但是春节互联网保障效果较好,并未影响DNS点击本网率指标;
    • 因DNS日志缺失,导致数据采集不全,(2月份接到DNS日志缺失告警11次),浪潮已经署新系统,力创开发接口阶段,待系统上线后,弥补老系统对数据缺失造成的影响。

  • DNS维度核心指标(点击本网率)

  • DNS维度出网域名处理情况统计(个)

  • 解决措施:
    经分析将可缓存域名20添加至缓存白名单进行优化服务,将443端口域名82个添加到缓存黑名单,避免劫持导致投诉。
    对于已经缓存,但出网率较高的247个域名进行质量追踪,其中70%以上域名因源站加密而被取消缓存服务, 30%域名服务质量有所提高。
    将调度错误导致出网域名,通过IP调度至集团出口或发邮件至牵头省协调处理。

  • 定位原因:
    本月通过DNS维度建议缓存质差域名153个,其中可缓存域名20个、缓存黑名单那域名49个、调度域名2个、含443端口、https加密域名82个

  • 发现问题:
    基于TOP100网站、TOP10视频、省内TOP20网站,每周通过DNS流量流向系统查询出网域名Top100,每月通过汇总整理筛选出网资源超过70%的域名153个
    双击此处进行编辑。
  • DNS维度

  • 指标:
    1月,TOP100网站重点网站、TOP20视频、TOP20本省网站,均达到集团指标。

  • 拨测维度指标

  • 解决措施:
    • 因三方出口质量问题导致网站故障,联系三方厂家及时优化处理,2月份处理及时率100%
    • 因路由调整策略导致网站故障,先后对故障网站进行统计,通过不断调整优化,大部分调整到集团处理后,网站测试打开正常;
    • 浩瀚Cache及中兴Cache分别对故障域名取消服务,将走集团和三方出口均无法打开的网站进行强解操作,测试后打开正常,并将此类网站加入日常人工拨测。

  • 定位原因:
    • 通过人工拨测核实,与电信网络对比测试,因链接失效或者源站问题导致网站无法打开,共86次;测试打开正常共898次;网站故障共56次
    • 因三方出口质量导致网站故障共4次,因路由调整策略导致网站故障共48次,占比85.71%
    • 归属浩瀚Cache故障共1次,中兴Cache故障共1次,走集团和三方出口均无法打开,导致故障2次

  • 发现问题:
    2月,由飞思达拨测系统提示网站无法打开告警共1040,其中,贵州移动地址129次,非贵州移动地址911次
    贵州移动地址129次,包括浩瀚Cache地址53次,中兴Cache地址51次,网宿CDN地址20次,贵州其他地址5次
    非贵州移动地址911次,包括电信地址279次,联通地址124次,外省移动地址279次,其他运营商地址229次

  • 拨测维度指标

  • 解决措施:
    • 因域名www.ali213.net归属IP走集团和三方出口都无法打开,因此强解至电信地址111.1.10.4后测试打开正常。 
    • 联系中兴Cache对域名www.readnovel.com取消服务,测试后页面跳转正常。




  • 定位原因:
    • 跟踪”游侠网”IP发现为走集团出口打不开,调整至三方出口也无法打开。
    • 使用httpwatch抓包“小说阅读网” ,浏览器输入域名后302跳转带https,跳转至https://www.readnovel.com/,而中兴Cache对此域名进行了缓存,因此该域名无法正常跳转获取页面。

  • 发现问题:
    • 2017年2月17日,”游侠网”无法打开,域名www.ali213.net,解析地址为60.190.167.101,归属浙江电信。
    • 2017年2月23日,”小说阅读网”无法打开,域名www.readnovel.com,解析地址为117.187.29.103,归属中兴Cache。 

  • 拨测维度

  • 备注:接集团通知10月份移动MM下载速率指标由原来9Mbps提升到10Mbps
  • 咪咕视频业务运行情况:
    2月份咪咕视频服务带宽峰值为4.62Gbps,均值1.75Gbps,在线人数峰值为2402人,均值135人,整体运行情况良好。

  • 自有业务指标情况:
    基于移动自有业务2月份拨测数据显示,咪咕视频卡顿次数为0.02次/h、咪咕音乐播放时延0.14s,均已达到集团指标要求。2月移动MM下载速率为11.12Mbps,优于集团指标要求值10Mbps

  • 自有业务
  • 2月,直播业务首帧时延逐渐稳定,2月初首帧时延均值为1.24s,2月底首帧时延均值控制降低到1.22s

  • 得出结论

  • 直播:2月初与月底优化后首帧时延(s)比对

  • 得出结论

  • 2月,点播业务首帧时延逐渐稳定,2月初首帧时延均值为0.36s,2月底首帧时延均值为0.53s,波动在正常范围内。

  • 点播:2月初与月底优化后首帧时延(s)比对

  • 魔百盒运行数据比对

  • 2月节点命中率平均保持在99.58%以上。上月份节点命中率平均保持在96.65%以上。说明节点命中率基本保持稳定,且命中质量属正常波动。

  • 2月统一CDN系统的正常设备CPU使用率基本保持在7%以内(六盘水117.187.58.3设备硬盘故障达49%),内存使用在48.64%以内,磁盘存储空间使用率在41%以内。网卡发送速率最大866.9Mbps,网卡接收速率最大101.9Mbps
  • 2月整体调度成功率保持在99.85%以上,上月整体调度成功率保持在99.87%以上。说明整体调度成功率保持非常稳定,与上月比较,基本持平。
  • 直播(LIVE)峰值日均流量18.57Gbps、并发用户数5759户
    点播(VOD)峰值日均流量58.31Gbps、并发用户数是20968户
    回看(TVOD)峰值日均流量11.70Gbps、并发用户数是4251户
    • 从已观察监测数据分析和运营情况判断得出结论:融合统一CDN系统2月份运行正常,目前系统运行提供服务稳定。
    • 从服务带宽占用及设备负载等对融合CDN设备分析,流量占用在系统承受范围之内,CPU负荷使用正常(除硬盘故障设备),内存符合满足系统运行要求,磁盘存储空间满足目前业务数据缓存需求,网卡可以支撑目前业务的流量发送和接收运行。
  • 2月节点命中率平均保持在99.58%以上。上月份节点命中率平均保持在96.65%以上。说明节点命中率基本保持稳定,且命中质量属正常波动。

  • 2017年2月融合CDN中兴平台服务带宽、调试成功率、节点命中率、服务器运行数据进行跟踪监测观察进行质量分析。

  • 融合CDN中兴平台

  • 地市发展用户数量统计(户数)

  • 运行情况:
    提高业务稳定性:
    • 2月业务发展相对较平稳,负荷量在预期范围内,受春节放假影响,用户发展数较1月有所降低。
    优化措施:
    • 春节保障,平台运行稳定,无故障。
    • 两会前平台巡检,确保系统正常运行。
    • 与上海视频基地对接话单,经过校验满足要求,便于基地进行用户行为分析。

  • 发展情况:
    • 融合CDN平台承载贵州移动九个地市的直播、点播业务,整个17年2月业务开户速度较快,发展速度排名TOP3分别为:黔东南、遵义、毕节。2月用户发展情况由1月的309814户增长到348134户,2月增长38320户,涨幅达12.37%。系统平台支撑能够满足当前业务量,平台支撑处于稳定状态。

  • 融合CDN全业务平台
  • 优化质差域名省外TOP5,优化前页面加载时间均值为16236.12ms,优化后页面加载时间均值为4107.27ms
  • 优化质差域名省外TOP5,优化前页面加载时间均值为16236.12ms,优化后页面加载时间均值为4107.27ms。
  • 感知提升:通过对质差域名进行质量跟踪,2月建议缓存域名共538个,已缓存域名共294个
    优化质差域名省内TOP5,优化前页面加载时间均值为8615.36ms,优化后页面加载时间均值为2978.02

  • 质差域名优化情况

  • 指标未达到要求原因:
    • 2月投诉重复率6% (投诉总量较少),总投诉16条,其中一起投诉重复:工商银行企业网上银行无法登录故障。

  • 指标 :
    • 本月投诉处理及时率100%,所有工单均正确快速处理。2月重复投诉率6.00%

  • 投诉维度指标

  • 拨测维度能力要求:
    按网站名称、行业类别、问题现象等,梳理内容质量投诉数据,建立和管理典型、重点投诉处理案例,并设立内容投诉分析岗,协调处理质量问题;要建立投诉处理手段和流程,推动投诉前移,提高解决效率。

  • 处理措施:
    • 疏导至集团出口大部分均可恢复,小部分网页或者网上学习类视频(政治类,交通规则类,地方新闻类,计生统计等)在集团与三方均未能恢复已提交给相关人员督促处理。

  • 定位原因:
    • 网页类投诉主要原因是互联互通导致;2月下旬隐藏三方出口全部停止使用,一些政府媒体类网站无法访问,部分学习类似视频无法观看。

  • 发现问题1:
    • 2月故障平台投诉31起,实际有效处理共14起:包含地州提交4起、飞思达拨测告警9起QQ运维群投诉1起17起因提交信息不正确或者省网测试正常被退回,
    • 客响中心共反馈9起,实际有效处理2起(九游心动网页及网易云课堂)。其他均测试正常或者需要地州运维上门查看。
    • 从类型上看,故障平台均网页类投诉占比82%;客响中心游戏类投诉较多占78% ,游戏类有黎明杀机,六界仙尊等,省网测试正常或者用户时回复已经恢复。

  • 投诉维度

  • 处理措施:
     电信和联通方向处理措施为:
    • 疏导至集团出口;
    • 将非电信联通地址调整至集团出口使其恢复。
    投诉涉及网内资源处理措施为:
    • 及时联系缓存和CDN相关厂家进行调整使业务恢复;
    • 协调缓存厂家取消缓存并定期自查以防误将该类域名缓存,
    • 回源问题根据对应回源方向进行优化。
    • 强制解析域名到指定IP。

  • 定位原因:
    电信和联通方向的原因为:
    • 三方链路将非电信联通地址流控。
    • DPI流控导致故障。
    投诉涉及网内资源主要原因为:
    • 缓存、CDN问题;
    • 端口为443的域名被缓存;
    • 回源问题。
    • 源站域名授权服务器不稳定或者未授权导致解析异常或者无法解析

  • 发现问题2:
    • 2月从投诉故障运营商来看,电信占比50%,联通占比13%,总体电信资源故障较多。
    • 2月份故障投诉出口80%在三方出口,地州提交至故障平台的故障只占25%;拨测告警故障占75%

  • 投诉维度

  • 故障定位分析1:
    • 因为涉及银行业务,初步判断银行无法识别用户,所走出口来回路径不一致,跟踪出口全部走集团,故排除路径不一致可能性。判断为链接时效过短,用户提交公网故障地址为218.21.194.188,接入设备是贵阳城域网SR路由器。希望在办公室做到故障复现。将办公网家宽也接入到同一台SR设备,并获取到相应公网IP地址段218.201.194.160-190 。重复测试多次,故障并未复现,初步排除链接时效设置问题。

  • 故障描述:
    • 用户于2017年1月及2月均接到投诉在移动专线网络下工行企业网银无法登陆。故障表现为输入密码无效,重复弹出输入密码提示框,多次输入密码后,均“提示为了资金安全,请拔出U盾并妥善保管”,导致不能进入网银操作界面

  • 典型故障案例

  • 解决办法:通过故障定位发现该故障为公网不稳定导致。协调华为技术,通过调整设备策略。将用户获取的IP固定在花溪SR设备后,多次测试可以正常进入操作界面,问题得到解决。

  • 故障定位分析3:在访问www.ip138.com 网站以及nstool.netease.com,发现用户公网IP地址,在访问同一个域名时,域名解析地址不变。用户公网IP一直在218.201.194.188与218.201.194.155之间频繁变动, 用户公网IP地址不固定,此现象极其不正常。经技术深度排查发现,两个公网地址属于不同SR设备NAT地址段,218.201.194.155在金阳SR设备,218.201.194.188在花溪SR设备。导致工行企业无法识别用户公网IP地址,银行认定用户登录环境不安全,因此无法进入操作界面。确定故障原因:用户获取公网IP地址一直在金阳与花溪的SR设备之间变动导致该故障。

  • 故障定位分析2:因前期DPI流控设备出现过此类似无法排查原因的故障,于是怀疑是流控平台导致。协调DPI流控厂家将流控设备关闭,并将涉及IP天添加至流控白名单之后测试,办公室工行企业网银测试仍然正常。排除DPI流控设备所致。在这种情况下,办公室已经无法做到故障重现,并测试正常。

  • 典型故障案例

  • 基于TOP100热门网站、TOP10视频、TOP20本省网站等全网性及地方性热点、重点业务,为提高我省互联网业务质量,提升用户感知,2月份建议引入公众网站TOP10(除集团统一引入公众网站TOP55以外)和贵州省内网站TOP10已经向大数据部门发起内容引入协作单,并主动协调ICP做调度优化工作。

  • 建议引入网站

    • 2月份 ,TOP10视频调度服务器全部调度到集团出口做保障。
    • 2月份TOP10视频全部添加流控白名单做保障。

    • TOP10视频流量本省率均值96.44%,达到集团要求。
  • 基于TOP100热门网站TOP10视频以及本省TOP20网站的流量、点击量情况分析如下:

  • 流量控制、调度管理情况

    • 2月完成对省内TOP20网站域名智能DNS白名单核对,针对省内TOP20网站,加入智能DNS进行最优调度管理。

    • 2月完成对省内TOP20网站IP流控白名单核对,重点保障省内TOP20网站IP地址均在流控系统白名单中。

    • 近六个月本省网站TOP20总体点击量情况,2月份省内TOP20网站总点击量695.04万次。比1月份上升499.75万次。访问量波动正常。

    • 近六个月本省网站TOP20总体流量运行情况。2月份总流量为1325.95GB,较1月上升868.22GB。(按照2017年集团部署的围绕“两聚焦”的工作策略,更换了我省去年TOP20省内热点、重点网站, 故流量增加幅度较大)。
  • 针对本省TOP20网站的流量控制调度管理情况。

  • 流量控制、调度管理情况

  • 集团TOP100网站流速情况(Mbps)

    • 2月份百度点击量为后面9家CP总和的0.49倍

    • 2月份集团TOP100网站全部添加流控白名单做保障。
    • 2月份集团TOP100网站流量情况正常。其中淘宝流速较高,其次是百度
  • 针对集团TOP100网站的流量控制调度管理情况。

  • 流量控制、调度管理情况

  • 备注:基地业务(网页类首屏打开时延)普天实际测试对象为客户端首页打开时延,因AAP包含广告,故时延较高。

  • 内容网络指标完成情况
  • 2月份内容网络工作指标完成情况如下:

  • 问题清单
  • 问题清单跟踪

  • 工作计划

  • 谢 谢