Filecoin运维管理之安全监控篇
摘要:目前Filecoin封装以集群为主流形式,越大型的集群对于运维能力的要求也越严苛。
目前Filecoin封装以集群为主流形式,越大型的集群对于运维能力的要求也越严苛。如何保证设备的稳定运行且完成Filecoin封装过程中一系列的复杂证明,也是Filecoin运维工程师们面临的一大挑战。算力中心的监控作为运维环节中的重要一环,能够对集群的数据进行监测,实现包括硬件、业务、任务、服务的运行状况的实时监控。
运维工程师只有通过掌握集群运行的状态和数据监控才能完成进一步的优化,提升集群整体性能。接下来小冰将从监控角度来展示雅典娜云池的Filecoin的大型监控方案,主要从监控平台选型,安全监控告警,恶意程序查杀,系统入侵防护,高风险操作、运维审计、机房安保监控等几个方面进行展示。
监控平台选型
运维的核心是监控,合理的监控可以让运维人员更加轻松的应对运维过程中的各种异常和故障处理。
面对超大规模的监控告警选型,合理的监控选型能带来事半功倍的效果,针对海量服务器的硬件监控,雅典娜云池选择的是二次开发的开源监控平台,我们的监控具有主机自发现、分布式的监控体系和集中式的web管理、支持无Agent和有Agent的混合监控方式、跨操作系统监控、高效可视化的业务视图等多种优势。
针对海量业务监控,雅典娜云池采用的是promethues+granfa作为监控手段,promethues具有部署简单、强大的查询语言PromQL、可扩展、易于集成等众多优势,是业务监控的强大助手。
不仅可从监测的数据中发现业务异常,还可以通过提前检查日志来规避更多风险。雅典娜云池的日志监控采用的是目前比较主流的ELKF日志监控方案,ELKF具有日志采集、存储、查询、过滤为一体的日志处理方案。
安全监控告警
监控的核心是告警,合理的告警可以增加监控处理的效率。目前雅典娜云池的硬件监控采用的是四级监控,分为警告、一般故障、严重故障、灾难。对于警告和一般故障,运维工程师只需要在页面进行告警弹窗展示,对于严重和灾难级别的报警,则需要采用钉钉的接口方式进行告警推送。
业务监控针对WindowPost、WinningPost、算力封装等进行了业务24小时实时监控输出,并在业务告警后进行告警弹窗和声音提示,只有在异常处理确认后才能关闭告警。
恶意程序查杀
雅典娜云池专业的测试人员定期查杀恶意程序,使用Chkrootkit、RootkitHunter等检查系统中的木马程序、Rootkit、间谍程序、流氓软件、蠕虫病毒及其它恶意程序。同时定期检查操作系统的关键机制,如系统服务、内存、注册表、启动进程。此外定期检测操作系统的安全模型,包括访问控制、特权和审计。反馈系统安全配置、文件访问,驱动、引导等系统深度信息。更为重要的是运维工程师会进行定期备份以及异地灾备,以便在系统发生灾难后及时恢复。
系统入侵防护
雅典娜云池使用专业的入侵防御系统,有效地对缓冲区溢出、SQL 注入、暴力猜测、DOS攻击、扫描探测、蠕虫病毒、木马后门等各类黑客攻击和恶意流量进行实时检测及报警,并通过与防火墙联动、发送邮件等方式进行动态防御。
1、事前警告:入侵检测系统能够在入侵攻击对网络系统造成危害前,及时检测到入侵攻击的发生,并进行报警;
2、事中防御:入侵攻击发生时,入侵检测系统可以通过与防火墙联动、TCP Killer 等方式进行报警及动态防御;
3、事后取证:被入侵攻击后,入侵检测系统可以提供详细的攻击信息,便于取证分析。
科普:比特币为什么这么耗电?
高风险预警
1、雅典娜云池专业的运维人员及时关注官方发布的安全资讯,如果有安全通报,及时进行修复。
2、定期使用扫描器(openvas)对系统扫描,及时更正网络安全漏洞和系统中的错误设置,有效提高网络的安全性。
运维审计
为对运维人员的访问过程进行细粒度的授权、全过程的操作记录及控制、全方位的操作审计、并支持事后操作过程回放功能,实现运维过程的“事前预防、事中控制、事后审计”。目前我们采用二次开发的开源堡垒机作为统一登录访问控制堡垒。
机房安保监控
影响机房安全的因素有很多,如空气中的灰度、温度以及湿度状况、线路短路及设备故障引起的烟雾火灾、布线是否规范、内部人员管理制度是否合理、外部人员管理措施等。
* 针对空气中的不安全因素,雅典娜云池在各个机房安装有温湿度告警器、烟雾告警器,做到安全事故一旦发生能够第一时间发现并处理。
* 空气中的灰尘对服务器的使用寿命有很大影响,为了把灰尘对服务器的影响减少到最低,雅典娜云池每天安排有专业的清扫人员在机房清扫灰尘。
* 机房规范的布线不仅可以为运维人员排查故障节约时间,而且可以避免运维人员在排查线路时因拔错线而导致的人为故障。雅典娜云池机房采用标准的布线规范,做到了线路清晰、美观、不影响设备硬件的更换。
* 机房的监控系统是机房安全的重中之重,雅典娜云池在机房的各个角度都安装有摄像头,可以全方位无死角辐射到机房的每个区域。
* 在各个机房中雅典娜云池安排了至少3位现场值班人员同时配有备件库,每天安排至少3次巡检,做到能够及时发现故障并及时处理。
* 在机房有外来人员拜访时,雅典娜云池都会安排值班人员陪同,避免因外来人员的误操作导致安全事故发生。
总结
雅典娜云池的监控系统做到了规范统一、安全可靠。具有实时监控运行状态、预期故障发生、迅速排除故障、记录和处理相关数据、进行综合管理等多重能力,对设备故障、环境情况及安全性作出迅速、准确地反应和有目的性的维护,进而提高设备运行的可靠性,提高运维管理质量,降低系统维护费用,同时确保系统运行处于良好的工作状态。
雅典娜云池的机房节点分布多,数据信息交互量大,针对用户的不同的管理机制,通过分散监控、集中统计的手段,实现对设备的统一监控管理,实现了机房管理的多样化、智能化、自动化、图形化,充分保证了机房管理的独立性,将机房管理化繁为简、化整为零且又通过雅典娜云池内部网络最终汇聚为一。
作者:冰河分布式存储实验室
关于BTC的八个基本常识
声明:本站所有内容,如无特殊说明或标注,均为采集网络资源,任何内容均不构成投资建议。