零、回顾
上节我们使用openfalcon实现了类似cacti的出图功能,安装了 agent–>transfer–>graph–>query–>dashboard等组件,这次我们安装剩余的组件来实现nagios的报警功能。
一、安装judge、alarm、sender
agent会将数据传递给transfer ,transfer在将数据传递给graph 的同时,也会传送一份到judge。
judge会根据模板的报警规则进行判断,将产生的报警event写入redis,alarm从redis读取报警并通过sender发送邮件和短信。
judge、alarm、sender都是go语言编译好的程序,安装方法就不再详细描述了。
Links是为报警合并功能写的组件,本次先不说。不安装。
二、安装FE,WEB统一入口
因为openfalcon监控组件众多,记忆ip、port去访问还是比较麻烦。fe像是一个监控的hao123,从这里可以快速进入各个组件。在小米的教程里FE也叫UIC。
FE组件安装和配置方法同之前的一致。
三、portal
Portal的配置文件是frame/config.py
portal和dashboard一样也是python开发,需要按如下方式启动
$ cd /path/to/portal/
$ virtualenv ./env
$ ./env/bin/pip install -r pip_requirements.txt
##@@启动
$ ./control start
四、openfalcon的使用
webportal的使用
4.1 重置root密码
FE界面上有平台登录/退出功能,默认用户是root,密码好像是a,可以使用如下命令重置密码。
http://10.127.3.118:1234/root?password=sohu.com
4.2 配置报警策略
基本过程如下:
- 配置报警接收人(用户信息和用户组)
- 创建主机组HostGroup
- 创建策略模板
- 将HostGroup与模板绑定
详情请查看官网文档
五、自定义监控项
有两种办法,一是使用插件功能,另一个就是使用crontab定期向agent发送数据。
六、其他问题
6.1 最大报警次数为3,那前三次报警的时间间隔在哪里设置?
比如你的数据是一分钟上来一次,理论上第三分钟,第六分钟,第九分钟分别报警三次就不再报警了。但是这样报警我们觉得太频繁,于是judge中有一个最小报警设置,默认是5分钟,即:两次报警之间至少间隔5分钟:第三分钟、第八分钟、第13分钟。Link不做告警合并,Alarm只合并一分钟内相同类型的报警。
6.2 这个max=3 是指同一个监控项 比如cpu.busy 在一定时间内最多发三次报警吗?
max表示最大报警次数,比如你配置了cpu.idle小于5报警,max设置为3那么报警达到3次之后即使仍然小于5也不会再报警了,直到接下来某次cpu.idle大于5了,就会报一个ok出来。以后如果又小于5了,那就会再次报警
七、参考资料
http://www.jianshu.com/p/a5fcd5c048f1
http://book.open-falcon.org/zh/usage/getting-started.html
转载请注明:IPCPU-网络之路 » open-falcon的使用2-高级