metaclass: (Default)
[personal profile] metaclass
Все началось с того, что в одной территориально распределенной опердени не прошла проверка на корректность репликации баз и на меня повесили задание разобраться с этим. Т.е., просто формальный критерий - сумма проводок "сколько опердень отдала товара на сторону" не совпала с суммой "сколько опердень получила товара со стороны".
Как известно, репликация распределенных баз данных это адское вуду, которое, как оказалось, до сих пор служит темой для теоретических работ, стимулом для использования NoSQL и тому подобного. Когда я делал эту хрень 5 лет назад, я еще не настолько поехал крышей на почве computer science, чтобы месяцами читать теоретические работы, прежде чем делать. Поэтому система уже сделана и давно работает, но изредка возникают проблемы требующие ручного вмешательства.
Ну с задачей я разобрался, там мелочь, но в процессе решил упростить себе решение подобных задач и сделать небольшой sql запрос для проверки подобного. В процессе создания запроса обнаружил что моя копия рабочей базы устарела и нужно бы скачать с клиентов новую копию. Полез на сервер бэкапов и обнаружил что бэкапов там уже неделю как нет.
Оказывается, местные админы опять "воевали с кидо" и, видимо, отключили планировщик заданий, после чего бэкапы отгнили. Я бы, конечно, предложил вырвать им сердце, но мой начальник человек умеющий сглаживать углы, поэтому мне никто не разрешит высказать админам все что я думаю о деструктивном вмешательстве в работу системы, ни у кого не спрашивая и никого не предупреждая, а так же о том, какие деструктивные вмешательства в работу внутренних и внешних органов этих админов я бы произвел, будь на то моя воля.

Обсуждение сей ситуации привело к всплытию старой темы про адекватный мониторинг наших производственных серверов. Я давно про это думаю, но есть особенность что эти сервера разбросаны по всей РБ и за ее пределами, количество вариаций подключения серверов между собой, клиентскими рабочими местами и интернетом достаточно невменяемое (что нибудь типа "сервер 1 видит сервер 2, сервер 3 видит видит сервер 2, но сервер 1 и 3 друг друга не видят, причем выход в интернет есть только на сервере 1 и только через анальный VPN находящийся у черта на рогах на сервере 4 и на котором админы в припадках биполярного аффективного расстройства постоянно рулят правилами файрволла в зависимости от фаз луны")
Кроме того, тема мониторинга серверов при размышлении превращается в адово вуду типа "мониторинг наличия соединений, мониторинг наличия свободного места, мониторинг работоспособности софта, мониторинг наличия регулярно создаваемых бэкапов, и прочая и прочая".

Ребе [livejournal.com profile] belnetmon с ходу предложил несколько вариантов простого мониторинга, но я их все отверг, потому что уже давно их все перебрал и понял, что реальный мониторинг, а не самоуспокоение - это как "безопасность, которая процесс а не продукт". Т.е. мало того, что написанной за день софтиной "проверяем состояние сервера раз в час и пишем в базу данных" не обойдешься никак - за этим нужно постоянно присматривать, а софт всего лишь упрощает работу тому, кто будет присматривать.
Т.е. суть в том, что писать подобного рода программы запрещено - единственное что они могут дать - это самоуспокоение, а на самом деле там админ в припадке психоза напишет прогу, которая будет отсылать уведомление "все хорошо", ничего не проверяя, а бэкапы отключит, потому что они мешают ему спать, "винчестер шуршит и излучает астральных вшей в радиусе 10 метров". Поэтому написать качественную софтину подобного назначения - это слишком долго и дорого (полноценный промышленный продукт как бэ), а писать некачественную наколенную поделку запрещает паук, который страдает перфекционизмом и люто ненавидит половинчатые решения.

-================<;>~

Date: 2011-01-05 12:17 pm (UTC)
From: (Anonymous)
Quod custodiet ipsos custodes?

Эта проблема впервые поднята в древнем Риме.

Re: -================<;>~

Date: 2011-01-05 12:38 pm (UTC)
From: [identity profile] trueblacker.livejournal.com
я бы сказал "ещё" вместо "впервые"

Re: -================<;>~

Date: 2011-01-05 12:43 pm (UTC)
From: [personal profile] alll
И там же решена. Вместо одного сторожа нанимаются три, между ними организуется нежно лелеемая междуусобица, в результате возникает автоколебательный процесс, сопровождаемый непрерывным стуком.

Date: 2011-01-05 12:49 pm (UTC)
From: [identity profile] oldmann.livejournal.com
сделайте систему мониторинга по принципу "агент на каждом сервере, отключили бэкап - приходит письмо на адрес pizdec@belnetmon.by".

Date: 2011-01-05 12:55 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Да, тут возникают следующие проблемы:
1) На сервере пропал коннект для доставки письма.
2) На сервере бэкап делается, но на самом деле он сломался и из него ничего не восстанавливается
3) Почтовый адрес в припадке невменяемости админа запилила спамоловка исходящего почтовика (уже было такое один раз).
4) Поменяли адрес и имя исходящего почтовика. Тоже было :)
5) На сервере где живет этот ящик психи настроили спамоловку и запилили всю почту.
6) Оппозиционные псы в припадке литвинобесия удалили весь сервер со всеми ящиками:)
7) Оппозиция распылила ротавирусы и тот, кому положено следить за ящиком, сам слег в ящик.
ну и так далее :)

(no subject)

From: [identity profile] http://users.livejournal.com/zubr_/ - Date: 2011-01-05 01:03 pm (UTC) - Expand

(no subject)

From: [identity profile] veter-r-r.livejournal.com - Date: 2011-01-05 02:50 pm (UTC) - Expand

(no subject)

From: [identity profile] volodymir-k.livejournal.com - Date: 2011-01-05 03:14 pm (UTC) - Expand

(no subject)

From: [identity profile] veter-r-r.livejournal.com - Date: 2011-01-05 03:15 pm (UTC) - Expand

(no subject)

From: [identity profile] volodymir-k.livejournal.com - Date: 2011-01-05 03:11 pm (UTC) - Expand

Date: 2011-01-05 12:56 pm (UTC)
From: [identity profile] http://users.livejournal.com/zubr_/
Отправка alert на почту или на пейджер - само то.

Подобной программе можно дать пару особых фич. Например, "пинг" или принудительный запуск от центрального узла; контрольный прогон по данным, по которым нельзя сделать заглушку.

Date: 2011-01-05 01:13 pm (UTC)
From: [identity profile] permea-kra.livejournal.com
По-моему, тут только один вариант: ручной скриптик, который ходит по серверам каждую ночь, собирает и нарезает логи, а утром в случае чего вопит 'ай-ай, сервер такой-то поели жабы. Ай-ай связь с сервером таким-то поели черви.'
(deleted comment)

Date: 2011-01-05 05:31 pm (UTC)
From: [identity profile] kisa-i-osya.livejournal.com
Сменить бородавку на геморрой -- оррригинеально... ;-)
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-06 08:52 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-06 10:34 am (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-06 02:27 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-06 03:14 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-06 04:38 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-06 06:20 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-07 11:26 am (UTC) - Expand
(deleted comment)

Re: Имеющий уши

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-07 01:30 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-07 05:30 pm (UTC) - Expand
(deleted comment)

(no subject)

From: [identity profile] kisa-i-osya.livejournal.com - Date: 2011-01-07 06:45 pm (UTC) - Expand

Date: 2011-01-05 01:35 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
Ващще-то это наполовину административная проблема. То есть, решается не софтиной, а написанием (и доведением под роспись до исполнителей) вменяемого регламента работ, чтоб работник с одной стороны мог осилить этот регламент, а с другой, чтоб там чё существенное не было пропущено.

Date: 2011-01-05 01:39 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Ну я давно писал, что 10 строк докладной эквиваленты 10 тысячам строк кода.

(no subject)

From: [identity profile] nicka-startcev.livejournal.com - Date: 2011-01-05 01:49 pm (UTC) - Expand

Date: 2011-01-05 04:24 pm (UTC)
From: [identity profile] vp.livejournal.com
Вы путаете, что сервера находятся не у нас за спиной, а у заказчиков, и являются собственностью этих самых заказчиков, а админов заказчиков заставить работать - это весьма суровый процесс, потому как им это делать.. не хочется. Посему придумываются 1001 способов саботажа, и рычагов воздействия нет. Потому любая неработоспособность системы автоматом становится нашей проблемой (админы рады ее скинуть). Посему и такое внимание к техническим аспектам, как это можно решить

(no subject)

From: [identity profile] nicka-startcev.livejournal.com - Date: 2011-01-05 04:38 pm (UTC) - Expand

(no subject)

From: [identity profile] vp.livejournal.com - Date: 2011-01-05 04:56 pm (UTC) - Expand

(no subject)

From: [identity profile] nicka-startcev.livejournal.com - Date: 2011-01-05 05:02 pm (UTC) - Expand

(no subject)

From: [identity profile] vp.livejournal.com - Date: 2011-01-05 05:18 pm (UTC) - Expand

(no subject)

From: [identity profile] nicka-startcev.livejournal.com - Date: 2011-01-05 05:21 pm (UTC) - Expand

(no subject)

From: [identity profile] vp.livejournal.com - Date: 2011-01-05 06:18 pm (UTC) - Expand

(no subject)

From: [identity profile] nicka-startcev.livejournal.com - Date: 2011-01-05 06:21 pm (UTC) - Expand

(no subject)

From: [identity profile] vp.livejournal.com - Date: 2011-01-05 06:25 pm (UTC) - Expand

(no subject)

From: [identity profile] nicka-startcev.livejournal.com - Date: 2011-01-05 06:26 pm (UTC) - Expand

(no subject)

From: [identity profile] vp.livejournal.com - Date: 2011-01-05 06:50 pm (UTC) - Expand

(no subject)

From: [identity profile] nicka-startcev.livejournal.com - Date: 2011-01-05 06:54 pm (UTC) - Expand

(no subject)

From: [identity profile] b00ter.livejournal.com - Date: 2011-01-05 09:46 pm (UTC) - Expand

Date: 2011-01-05 02:47 pm (UTC)
From: [identity profile] norguhtar.livejournal.com
Ну вы блин как маленькие дети ;) Есть же такое ПО. nagios советовать не буду ибо там черви и жабы, с моей точки зрения. С точки зрения всего остального легкое monit, со стороны тяжелого zabbix. Но в код zabbix смотреть не рекомендую если хочется сохранить психическое здоровье. Из comuter science еще можно порекомендовать cfengine, но сразу предупреждаю это адцкий шизняк :)

Date: 2011-01-05 03:46 pm (UTC)
From: [identity profile] sorhed.livejournal.com
Как вы могли забыть про God'а нашего истинного?

Date: 2011-01-05 03:05 pm (UTC)
From: [identity profile] fas-tm.livejournal.com
Нечто такое я сейчас и пилю. Задача - мониторить софт и железо. Есть центр и есть регионы. VPN. Сервер с базой данных получает от агентов инфу, пингует сервера, забирает данные по snmp, дописаны кастомные модули для специфических задач.
Все состояния выводятся на графическую консоль. Пишутся в журнал. Отсылаются на почту. Изначально opensource проект. В обычно состоянии - жабы и черви. Допиливаем.
В простейшем случае живучесть серваков и сервисов на них.
web consolе

Есть возможность перезапускать сервисы при зависании итд... Опять же логи и записи об инцидентах.
Агенты - для любых операционок...

Date: 2011-01-05 05:23 pm (UTC)
From: [identity profile] d4s.livejournal.com
что-то навроде HP OpenView?

(no subject)

From: [identity profile] fas-tm.livejournal.com - Date: 2011-01-05 05:30 pm (UTC) - Expand

(no subject)

From: [identity profile] b00ter.livejournal.com - Date: 2011-01-05 09:50 pm (UTC) - Expand

(no subject)

From: [identity profile] fas-tm.livejournal.com - Date: 2011-01-05 09:54 pm (UTC) - Expand

(no subject)

From: [identity profile] b00ter.livejournal.com - Date: 2011-01-05 10:01 pm (UTC) - Expand

Date: 2011-01-05 03:15 pm (UTC)
From: [identity profile] volodymir-k.livejournal.com
HP OpenView :)))
Пусть директор схватится за сердце от их цен.

Date: 2011-01-05 03:27 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Если мне не изменяет память, его там уже когда-то внедряли, но я его там ни разу не видел в использовании :)

(no subject)

From: [identity profile] golosptic.livejournal.com - Date: 2011-01-06 03:22 pm (UTC) - Expand

Date: 2011-01-05 04:21 pm (UTC)
From: [identity profile] l0gin.livejournal.com
Ребе, вы не думали распространять опердень в виде сервиса по подписке?

Date: 2011-01-05 04:39 pm (UTC)
From: [identity profile] vp.livejournal.com
Не, мы наоборот т.к. боремся за рынок, то никогда не ограничиваем ни число рабочих мест, ничего. Потом заработок идет на чистом честном саппорте.

(no subject)

From: [identity profile] l0gin.livejournal.com - Date: 2011-01-05 04:51 pm (UTC) - Expand

(no subject)

From: [identity profile] vp.livejournal.com - Date: 2011-01-05 04:59 pm (UTC) - Expand

Дарю идею

From: [identity profile] g-rub.livejournal.com - Date: 2011-01-05 06:08 pm (UTC) - Expand

Re: Дарю идею

From: [identity profile] vp.livejournal.com - Date: 2011-01-05 06:25 pm (UTC) - Expand

Re: Дарю идею

From: [identity profile] g-rub.livejournal.com - Date: 2011-01-05 07:33 pm (UTC) - Expand

Re: Дарю идею

From: [identity profile] nivanych.livejournal.com - Date: 2011-01-06 08:58 am (UTC) - Expand

Re: Дарю идею

From: [identity profile] metaclass.livejournal.com - Date: 2011-01-05 09:39 pm (UTC) - Expand

Re: Дарю идею

From: [identity profile] g-rub.livejournal.com - Date: 2011-01-06 10:38 am (UTC) - Expand

(no subject)

From: [identity profile] metaclass.livejournal.com - Date: 2011-01-05 09:36 pm (UTC) - Expand

(no subject)

From: [identity profile] permea-kra.livejournal.com - Date: 2011-01-06 02:36 pm (UTC) - Expand

Date: 2011-01-05 04:41 pm (UTC)
From: [identity profile] alexandr0.livejournal.com
Устройте у себя сервер лицензий. Вместе с проверкой лицензии проверяйте заодно и прочее, что пожелаете. Заодно решится проблема "выход в интернет есть только на сервере 1".

Date: 2011-01-05 09:37 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Наоборот, проблема усугубится тем, что без интернета это все работать не будет.

Date: 2011-01-05 07:09 pm (UTC)
From: [identity profile] mega-mosk.livejournal.com
Ребе, это стимул для использования Оракла, ДБ2 и иже с ними. Причем на никсах отличных от канонiчного лялиха. И Ваш-таки мониторинг туда впишется прекрасно. Ну или можно сидеть и пиздеть о том как страшно жить, да.

Date: 2011-01-05 09:41 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Смешно то, что юниксов тут 1%, а админов, которые их осилят, 0.1%
Мне что, своими руками потратить еще несколько человеко лет на переделку под платные юниксы и базы данных, чтобы сузить клиентскую базу в 100 раз?:)

(no subject)

From: [identity profile] mega-mosk.livejournal.com - Date: 2011-01-05 10:12 pm (UTC) - Expand

(no subject)

From: [identity profile] metaclass.livejournal.com - Date: 2011-01-05 10:47 pm (UTC) - Expand

(no subject)

From: [identity profile] mega-mosk.livejournal.com - Date: 2011-01-05 11:34 pm (UTC) - Expand

(no subject)

From: [identity profile] metaclass.livejournal.com - Date: 2011-01-05 11:47 pm (UTC) - Expand

(no subject)

From: [identity profile] mega-mosk.livejournal.com - Date: 2011-01-06 12:12 am (UTC) - Expand

(no subject)

From: [identity profile] golosptic.livejournal.com - Date: 2011-01-06 03:21 pm (UTC) - Expand
From: [identity profile] golosptic.livejournal.com
без дураков
работа по написанию софта мониторинга заменяется работой по написанию маленьких скриптиков-плагинов под конкретные задачи типа создания бэкапов.
Под многие (типа свободного места) оно и встроенное есть.

ну и, разумеется, кто-то должен поглядывать хотя бы на графическую выдачу

Date: 2011-01-07 06:14 pm (UTC)
From: [identity profile] tzirechnoy.livejournal.com
А я, кстати, таки посоветую nagios. Черви и жабы -- они везде, зато когда с конфигом nagios правильно разберёшься он выглядит вменяемым. Дажэ извращённый.

Date: 2011-01-07 06:33 pm (UTC)
From: [identity profile] yakov-sirotkin.livejournal.com
Проблема мониторинга лечится при помощи большого монитора на стене, который показывает текущую ситуацию разными цветами, как светофор.

С нотификациями о проблемах действительно вилы: если присылать их в случае проблем, то не понятно, почему они не приходят - то ли всё хорошо, то ли поломался мониторинг, а если слать периодически, то мозг вообще начинает их игнорировать.

Date: 2011-01-07 06:44 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Вот я нотификации и хочу свести к светофору. Идут нормальные - зеленый, не идут или идут плохие - красный.

(no subject)

From: [identity profile] yakov-sirotkin.livejournal.com - Date: 2011-01-07 06:54 pm (UTC) - Expand

Date: 2011-01-10 10:41 am (UTC)
From: [identity profile] blackyblack.livejournal.com
Ставьте эрланг. С клиентами договоритесь о канале для шелла. Будет тотальная распределенность, возможность апдейта софта прям от вас, мониторинг всего и вся.

Date: 2011-01-25 02:45 am (UTC)
From: [identity profile] slonyara101.livejournal.com
Это прям в точку!!! Другими словами и не скажешь! :)

Profile

metaclass: (Default)
metaclass

April 2017

S M T W T F S
      1
2345678
9101112 131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Oct. 4th, 2025 02:13 am
Powered by Dreamwidth Studios