Архив за Август 2015

ZBX_TCP_READ() failed: [4] Interrupted system call

Столкнулся с проблемой, после добавления 2-х нод на базе Centos 6 в систему мониторинга zabbix значительно выросли значения для zabbix busy poller и zabbix busy unreachable poller статистик. Для примера график:

zabbix_poller

Включив DebugLevel=4 на сервере увидел в логах ошибки:

При этом судя по дампу сетевого трафика zabbix агент просто не успевал ответить за 20 секунд, а это значение выставлено у меня в timeout. При этом запросы простейшие, такой ситуации просто не должно возникать.

Подозрение пало на проблемы в работе DNS серверов, либо какой-то внутренний баг в zabbix agent. При проверке выяснилось, что DNS сервера работают нормально, отвечают быстро, но проблема была решена добавлением записи со ссылкой на zabbix server в /etc/hosts.

Как альтернативу можно использовать вариант с заменой FQDN имени Zabbix сервера в конфигурационном файле агента на IP.

По факту у хостера видимо какое-то ограничение на количество запросов от клиента на получение IP для одного и того же домена. При этом сам zabbix агент делает тонну DNS запросов, по сути на каждый запрос на получение данных с него. Ждем когда закроют этот тикет, с 2011 года не закрыт.