集群维护日常值班指南
日常值班内容:
- 监控系统重点指标,发现问题立刻解决
- hedwig 可选组件,搭建起来之后自己建立集群的 screen
- 定期观察监控系统,注意 / 和 /data 以及 docker 存储的磁盘占用,发现问题趋势立刻解决
- 观察(在 master 控制节点)
- 观察 重点分区使用情况 : ansible -i playbooks/cluster all -m shell -a "df -lha | grep 'rootfs|\/data'"
- 观察 docker 存储使用情况 : ansible -i playbooks/cluster all -m shell -a "docker info"
- 观察 系统日志空间占用 : ansible -i playbooks/cluster all -m shell -a "ls -lha /var/log/messages*"
- 观察 calico 日志 : ansible -i playbooks/cluster all -m shell -a "ls -lhat /var/log/calico/felix*| head -3"
- 常规清理
- ansible -i playbooks/cluster all -m shell -a "echo > /var/log/calico/felix.log.1"
- ansible -i playbooks/cluster all -m shell -a "echo > /var/log/calico/felix.log"
- ansible -i playbooks/cluster all -m shell -a "rm /var/log/messages-*"
- 如果实在紧张则做紧急处理,一般不用
- ansible -i playbooks/cluster all -m shell -a "echo > /var/log/messages"
- 观察(在 master 控制节点)
- 定期清理历史数据
- 在 master 控制节点的 lain 代码目录
lainctl node clean -p playbooks <node_name>
- 在 master 控制节点的 lain 代码目录