1.
整体规划与前期准备
在开始前梳理网络拓扑、出入口链路(ISP、BGP邻居、IX),确定监控范围(交换机接口、路由器、外链、虚拟机)。准备一台监控服务器(建议Debian/Ubuntu 20.04,2CPU、4G内存以上)并预留端口、VLAN访问权限;备份当前设备配置。
2.
开启设备性能采集(SNMPv3)
在交换机/路由器上启用SNMPv3保证加密。Cisco示例:snmp-server group MON v3 priv; snmp-server user monuser MON v3 auth sha AuthPass priv aes 128 PrivPass;Juniper示例:set snmp v3 usm user monuser authentication-sha AuthPass privacy-aes PrivPass。确保只允许监控服务器的管理IP访问SNMP端口。
3.
启用NetFlow/sFlow用于流量分析
在核心交换机启用sFlow或NetFlow以获得五元组流量。Cisco NetFlow基本命令:ip flow-export destination <监控IP> 2055; ip flow-export version 9; interface GigabitEthernet0/1 ip route-cache flow。将导出到流分析器(例如nfdump、pmacct、ntopng)。
4.
部署Prometheus + SNMP/Node Exporter
示例安装:apt update && apt install prometheus prometheus-node-exporter; 下载snmp_exporter并在prometheus.yml中添加scrape配置;使用snmp_exporter对接口ifInOctets/ifOutOctets采样,配置job与labels,设置抓取间隔为15s或30s以平衡精度与负载。
5.
配置带宽阈值与告警
在Prometheus中添加Rule:例如expr: (ifHCOutOctets{job="snmp"} / (interface_speed_bytes)) > 0.8 for 5m,触发Alertmanager发送邮件/Slack/Telegram。确保告警包含接口、设备、历史流量曲线URL与排查建议。
6.
可视化与历史趋势(Grafana)
部署Grafana并导入Prometheus数据源,建立面板:接口带宽使用率、Top talkers(按IP/端口)、每VLAN流量、丢包和错误。设置仪表盘只读账号用于运维值班查看。
7.
网络安全加固(边界与交换层)
边界:为外网流量启用ACL、限速、反向路径过滤(uRPF),对BGP邻居启用prefix-lists与最大前缀限制;交换层:启用端口安全(MAC绑定)、BPDU Guard、DHCP Snooping、防止ARP欺骗(Dynamic ARP Inspection)。
8.
主机与管理接入加固
禁止密码登录仅使用SSH密钥并启用两步验证(MFA);示例iptables限制SSH:iptables -A INPUT -p tcp --dport 22 -m connlimit --connlimit-above 3 -j REJECT;安装fail2ban阻止暴力破解;定期更新补丁并启用自动安全更新。
9.
DDoS与流量突发应对
建立与ISP的应急联络流程并预先配置黑洞/流量清洗策略(BGP Flowspec或远端清洗服务)。在设备上配置速率限制(policers)和syn-cookie,流量异常时先短时封控可疑源,配合流分析定位Top talkers。
10.
日志、审计与事件响应
集中日志:配置rsyslog或nxlog把网络设备与主机日志发到ELK/Graylog;设置SIEM规则监测异常连接、大量失败登录、配置变更。建立SOP:检测→隔离→取证(导出flow/snmp数据)→缓解→恢复→复盘。
11.
备份、演练与合规
自动化配置备份(Ansible或RANCID),定期演练DDoS、链路故障和主机入侵响应。保存带宽与流量历史至少90天以供溯源,审查访问控制与变更记录,确保符合客户与当地法规要求。
12.
问:如何快速定位占用带宽的主机或服务?
答:先在Grafana查看Top talkers面板找到高流量源,再在NetFlow/sFlow工具(ntopng、pmacct)按源IP、目的IP与端口筛查;在交换机上用show interface counters明确接口速率;若为虚机,登录宿主机用iftop或nethogs实时检查进程。
13.
问:在台湾机房遇到突发外链DDoS,首要操作是什么?
答:立即联系对应ISP并启动黑洞/清洗流程,同时在边界路由器短时间下发BGP Flowspec或在防火墙上做速率/ACL限制,保存流量样本(pcap、NetFlow)用于溯源与后续取证。
14.
问:日常运维有哪些必须自动化的检查项?
答:接口状态与利用率阈值告警、设备配置变更检测、重要服务(DNS、BGP、NTP)可用性检查、系统补丁与磁盘/内存监控、配置备份成功性与告警投递链路测试。
来源:运维必读台湾轮机房 在线带宽监测与安全加固建议