воскресенье, 4 июня 2017 г.

Статистика ввода-вывода diskstats в Linux через Zabbix

Как и во FreeBSD, для оценки производительности дисковой подсистемы Linux тоже можно воспользоваться утилитой iostat. Однако, в отличие от версии iostat из FreeBSD, в iostat из Linux нет опции, позволяющей выводить накопленные значения счётчиков. Чтобы получить полную статистику за интересующий нас интервал времени, можно воспользоваться файлом /proc/diskstats из специальной файловой системы /proc. Эта файловая система позволяет узнавать состояние различных подсистем ядра Linux и менять некоторые настройки.

Всё то, что я писал относительно FreeBSD, справедливо и для Linux: полную картину нагрузки на дисковую подсистему можно получить только собирая статистику за достаточно долгий срок. Имея полную статистику за неделю, можно найти периоды максимальной нагрузки и связать их с периодически выполняющимися в системе задачами, что позволит, например, подобрать оптимальное время запуска процедуры резервного копирования.

В этой статье речь пойдёт о том, как собирать статистику из файла /proc/diskstats в Zabbix. Этот метод я считаю более правильным, чем встречающиеся в интернете шаблоны, использующие для сбора статистики программу iostat, работающую некоторое время. Как я уже говорил, во-первых, такой способ не позволяет собрать статистику в промежутках между запусками команды, а во-вторых, приводит к необходимости использовать промежуточный файл, чтобы не ждать сбора статистики при запросе значения каждого отдельного счётчика.

Прежде чем что-то делать, ознакомимся с краткой документацией на этот файл по ссылке
https://www.kernel.org/doc/Documentation/ABI/testing/procfs-diskstats. Значения столбцов этого файла таковы:
  1. старший номер устройства (номер драйвера),
  2. младший номер устройства (порядковый номер устройства, управляемого этим драйвером),
  3. имя устройства в файловой системе /dev,
  4. количество успешно выполненных операций чтения,
  5. количество объединённых операций чтения,
  6. количество прочитанных секторов,
  7. время, потраченное на чтение, в миллисекундах,
  8. количество успешно выполненных операций записи,
  9. количество объединённых операций записи,
  10. количество записанных секторов,
  11. время, потраченное на запись, в миллисекундах,
  12. количество активных операций ввода-вывода (фактически - длина очереди транзакций),
  13. время, потраченное на выполнение операций ввода-вывода, в миллисекундах,
  14. взвешенное время выполнения операций ввода-вывода, в миллисекундах.
В этом файле имеется ссылка на ещё один документ - https://www.kernel.org/doc/Documentation/iostats.txt. В документе описываются те же самые колонки, но в нём пропущены первые три колонки, в которых указывается информация о самом диске. Применительно к столбцам файла /proc/diskstats там написано следующее:
  1. старший номер устройства (номер драйвера),
  2. младший номер устройства (порядковый номер устройства, управляемого этим драйвером),
  3. имя устройства в файловой системе /dev,
  4. количество выполненных операций чтения - общее количество успешно завершённых операций чтения,
  5. количество объединённых операций чтения - операции чтения соседних областей могут быть объединены друг с другом для повышения эффективности. Две операции чтения 4 килобайт можно объединить в одну операцию чтения 8 килобайт, прежде чем команда будет передана на диск. Такая операция будет поставлена в очередь и выполнена как одна операция. Это поле позволяет узнать, как часто происходит объединение операций,
  6. количество прочитанных секторов - общее количество успешно прочитанных секторов,
  7. время, потраченное на чтение, в миллисекундах - общее количество миллисекунд, потраченных всеми операциями чтения (замеренное между __make_request() и end_that_request_last()),
  8. количество выполненных операций записи - общее количество успешно завершённых операций записи,
  9. количество объединённых операций записи - см. описание поля 5,
  10. количество записанных секторов - общее количество успешно записанных секторов,
  11. время, потраченное на запись, в миллисекундах - общее количество миллисекунд, потраченных всеми операциями записи (замеренное между __make_request() и end_that_request_last()),
  12. количество активных операций ввода-вывода - единственное поле, которое сбрасывается в ноль. Увеличивается на единицу, когда запрос попадает в соответствующую структуру request_queue и уменьшается на единицу, когда этот запрос завершается,
  13. время, потраченное на выполнение операций ввода-вывода, в миллисекундах - это поле увеличивается, пока поле 12 отличается от нуля,
  14. взвешенное время выполнения операций ввода-вывода, в миллисекундах - это поле увеличивается с началом каждой операции ввода-вывода, завершением операции ввода-вывода, объединением операций ввода-вывода или при чтении этой статистики. Количество активных операций ввода-вывода (поле 12), помноженное на количество миллисекунд, потраченных на ввод-вывод с момента последнего обновления этого поля. Это поле позволяет легко оценить как время завершения ввода-вывода, так и время ожидания операции ввода-вывода в очереди.
Итак, что из этого удалось понять и что не удалось понять:
  • поле 12 не является накопительным и содержит текущее значение количества операций в очереди,
  • точный смысл поля 14 понять не удалось, будем считать что там находится некое "взвешенное" значение, по смыслу аналогичное полю 13,
  • размер сектора в полях 6 и 10 не известен.
На вопрос о размере сектора я нашёл очень подробный ответ How to get disk read/write bytes per second from /proc in programming on linux?, суть которого сводится к тому, что размер сектора в этом файле жёстко зафиксирован и всегда равен 512 байтам.

Теперь приступим к настройке Zabbix-агента. Для этого впишем в его файл конфигурации /etc/zabbix/zabbix_agentd.conf следующие строки:
UserParameter=diskstats.discovery,cat /proc/diskstats | awk 'BEGIN { printf "{\"data\":["; } { if (NR > 1) printf ","; printf "{\"{#DEVNAME}\":\"" $3 "\"}"; } END { printf "]}"; }'
UserParameter=diskstats.read.ops[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$4; }'
UserParameter=diskstats.read.merged[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$5; }'
UserParameter=diskstats.read.sectors[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$6; }'
UserParameter=diskstats.read.duration[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$7; }'
UserParameter=diskstats.write.ops[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$8; }'
UserParameter=diskstats.write.merged[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$9; }'
UserParameter=diskstats.write.sectors[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$10; }'
UserParameter=diskstats.write.duration[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$11; }'
UserParameter=diskstats.queue.length[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$12; }'
UserParameter=diskstats.busy.duration[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$13; }'
UserParameter=diskstats.transactions.duration[*],cat /proc/diskstats | awk '$$3 == "$1" { print $$14; }'
После внесения изменений в файл конфигурации Zabbix-агента, не забудьте его перезапустить:
# /etc/init.d/zabbix-agent restart
Я подготовил два варианта шаблона:
В шаблоне имеется правило низкоуровневого обнаружения, которое находит все дисковые устройства, статистику по которым выдаёт diskstats:

Если часть устройств кажутся вам лишними, в настройках правила обнаружения на вкладке "Фильтр" можно задать регулярное выражение, которое будет совпадать только с интересующими вас файлами дисковых устройств.

Для каждого найденного устройства создаются одиннадцать элементов данных, соответствующих колонкам производительности диска из файла diskstats:

Страница последних данных для одного из дисков выглядят следующим образом:

Элемент данных с названием "Загрузка диска" показывает процент времени, в течение которого диск занимается обработкой хотя бы одной транзакции.

Комментариев нет: