metaclass: (Default)
[personal profile] metaclass
"Сначала мы себе создаем проблемы, а потом их героически решаем."

Проявился, значит, в одном из сервисов, призванных работать 24/7, странный баг.
Все работает, никаких исключений, никаких признаков ничего плохого - но данные в базу не попадают. Появляется ну раз в месяц, может быть. Бесил, ибо был необъясним.
Добавил в сервис консоль удаленного управления, через телнет. Запряг весь наш саппорт при таких симптомах ничего не делать, кроме поднимания меня из гроба.
И вот сегодня как раз удачно сошлись звезды: опять баг, саппорт меня саммонил, у клиента нормальный сервак, сервис обновлен, консоль есть, можно спокойно изучать.
Включил консолью всю отладку, сижу втыкаю в DebugView/OutputDebugString, параллельно рассматривая код.
И вижу странное: все работает, кроме функции которая скидывает данные из расчетного кэша в БД. А функция, в целях снижения нагрузки на БД окружена таймером, который разрешает ей работать не чаще чем раз в определенное время, обычно 15 секунд. И, что характерно - реализовано это на GetTickCount, который хоть и склонен к переполнению, но при адекватной реализации это не мешает. А реализация там, ВНЕЗАПНО, неадекватная - два обращения к GetTickCount, вместо одного.
Смотрю значение GetTickCount - 1.25 дня. Смотрю данные - последний раз пришли в 7 часов утра. Туплю. Потом доходит - 7 часов утра ВЧЕРА, т.е. 1.25 дня назад. С приездом вас, называется.

Сервис останавливать нежелательно - надо бы и данные скинуть в базу, а то потом придется делать немного хитроватую процедуру их повторной передачи.
Значит, что я делаю:
1) Достаю строго нужную версию сервиса из SVN.
2) Собираю с отладочной информацией.
3) Копирую файлы отладочной информации клиенту рядом с его работающим сервисом.
4) Ставлю Debugging tools for Windows
5) Подключаюсь к сервису
6) Ставлю bp на нужный метод.
7) Ловлю вызов.
8) Дохожу до реализации if в виде cmp edx, eax / jbe ...
9) Меняю значение регистра edx на правильное, метод идет работать как положено.
10) Profit. Данные скинулись в базу. Переменная установилась в кошерное значение. Еще есть 49 дней до следующего переполнения, можно успеть починить исходники.

Date: 2012-01-04 11:21 am (UTC)
From: [identity profile] falcrum.livejournal.com
Гинеколог-ювелир! :)

Date: 2012-01-04 11:23 am (UTC)
From: [identity profile] hshhhhh.livejournal.com
Шаман :). А в линуксах такое как сделать?

Date: 2012-01-04 11:33 am (UTC)
From: [identity profile] metaclass.livejournal.com
Ну точно так же, наверно.
отладочная информация, gdb, аттач к процессу и далее аналогично :)

Date: 2012-01-04 12:13 pm (UTC)
From: [identity profile] vp.livejournal.com
ты удолбешься там под ГДБ сидеть, я думаю.

Date: 2012-01-04 12:27 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Ты не поверишь, но я баги в компиляторе хаскеля под виндой gdb отлаживал :)

Date: 2012-01-04 01:37 pm (UTC)
From: [identity profile] ilya-portnov.livejournal.com
Это уже не гинеколог, это уже проктолог…

Date: 2012-01-06 08:53 am (UTC)
From: [identity profile] zamotivator.livejournal.com
Отлично!

Date: 2012-01-04 01:43 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
гдб всреднем, заметно удобнее чем виндбг - меньше дрочки руками, меньше шаманских последовательностей по переподзагрузке символов, чуть лучше с удаленной отладкой.

Date: 2012-01-04 01:48 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Кстати, да, он от входа чуть понятнее.

Date: 2012-01-04 02:04 pm (UTC)
From: [identity profile] tzirechnoy.livejournal.com
В gdb тожэ самое делается явно проще. Ввиду простоты повторов, если промахнулся. Я всякое вытаскивал -- например, списки занятых ресурсов и их размеры из X-сервера, весьма удобно (xrestop чушь всякую показывал).

Кстати, если вдруг нет отладочной информацыи -- то сравнительное удобство командной строки только возрастает. То есть подобную задачу я, скорее всего, решыл бы довольно быстро и без debug symbols.

А вот собрать так, чтобы отладочная информацыя попала -- т.е. как минимум та жэ версия gdb, libgcc и скриптов линкера -- это выглядит фантастикой. Я не пробовал, но выглядит. Так что отладочные символы всегда надо спасать при релизах. И -dbg пакеты в Debian -- отнюдь не блаж, а рабочий инструмент сисадмина.

Date: 2012-01-04 02:27 pm (UTC)
abbra: (Default)
From: [personal profile] abbra
В реальности, если известно, что проблема в твоем коде, а не в системных (и прочих) библиотеках, то собрать ту же версию проще. Со средствами вроде OBS подогнать под конкретную среду вплоть до нужного обновления тоже особой проблемы не представляет.

Date: 2012-01-04 12:49 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
gdb вместо виндбг, меньше перезагрузок после установки мутного софта, кошерный ссш вместо дырявого телнета, а в остальном -- ровно так же.

Date: 2012-01-04 12:59 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Ни одной перезагрузки, мне ж нужно было сервис запущенным пофиксить :)
Telnet там только к моему сервису и только на 127.0.0.1

а вообще да, gdb

Date: 2012-01-04 01:42 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
gdb ввинде довольно странен. Там с форками и тредами есть некоторые неприятные плавающие глюки.

>Ни одной перезагрузки, мне ж нужно было сервис запущенным пофиксить :)

ну, когда я ставил виндбг, мне пришлось перестартовать винду с какими-то хитрыми параметрами, но это было давно и таки да, в принципе, винда могла бы быть уже запущена в нужной позе.

Date: 2012-01-04 11:24 am (UTC)
From: [identity profile] skif-by.livejournal.com
Гинеколог-хирург. А вообще, ребе, просто восхитительно! Снимаю шляпу :)

Date: 2012-01-04 11:30 am (UTC)
From: [identity profile] trueblacker.livejournal.com
зашебенно! круче любого детектива.
респект и уважуха.
т.е. баг проявлялся, если в сервисе 24/7 случалось снижение нагрузки и в течение суток не было запросов? я правильно понял?

Date: 2012-01-04 11:32 am (UTC)
From: [identity profile] metaclass.livejournal.com
Нет, там сочетание факторов: ничего не перезагружали более 49 суток, успеть попасть на момент переполнения между двумя вызовами функции GetTickCount.

Date: 2012-01-04 11:33 am (UTC)
From: [identity profile] trueblacker.livejournal.com
да, вчитался, понял
а то собирался уточнять откуда число 49.
From: [identity profile] pingback-bot.livejournal.com
User [livejournal.com profile] skif_by referenced to your post from Ювелирная программная гинекология (http://skif-by.livejournal.com/129669.html) saying: [...] Вот тут [...]

Date: 2012-01-04 11:45 am (UTC)
From: [identity profile] trueblacker.livejournal.com
а всё таки интересно, как работает кэш. Я так понял, что он собрался ждать 49 дней до выполнения транзакции. Но у него что, нет никакого flush если он переполняется не по времени а по размеру очереди?

Date: 2012-01-04 11:52 am (UTC)
From: [identity profile] metaclass.livejournal.com
Там размер не столько важен, сколько интервал хранящихся для расчета данных (~несколько часов). Там не очередь, а отсортированный массив записей по времени.
У меня руки никак не дойдут этот кэш оформить теоретически верно.

Date: 2012-01-04 12:03 pm (UTC)
From: [identity profile] abadonne.livejournal.com
Очень круто!

Date: 2012-01-04 12:52 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
как я понимаю, значение счетчика - величина со знаком, да?
Вот и вылезло кривое переполнение в знаковый разряд.

Date: 2012-01-04 12:59 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Нет, величина беззнаковая, но каждые 49 суток она переполняется, 2^32 предел.

Date: 2012-01-04 01:47 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
(тупо) 0х01 - 0хFF = 0x2, если считать беззнаково и на 8-битной архитектуре. Переполнение не страшно.

А. понял. не хватило диапазона. типа реально ничего не делали 257 времени, а по арифметике насчитали 1 времени. Тогда да, надо или диапазон расширять, или принудительно сбрасывать при переполнении.

Date: 2012-01-04 01:52 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Там короче, получилось, что предыдущее значение GetTickCount было чо-то вроде FFFFxxxx
А при следующем запуске этой процедуры GetTickCount вернул чо-то вроде 0000хххх
сравнение возвращает false всегда, сохранение в базу не выполняется, старое значение не изменяется. Если бы было вычитание - все было бы кошерно.

Date: 2012-01-04 02:04 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
Надо принудительно привести оба операнда к беззнаковому в сравнении. :)

хотя, хз. Компилировать тесты - лень.

Date: 2012-01-04 02:10 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Насчет беззнакового верно, там где-то проеб с неявной конверсией long в ulong.

Date: 2012-01-04 12:57 pm (UTC)
From: [identity profile] jdevelop.livejournal.com
респект, уважуха

а что нынче кошерное по типу SoftIce присутствует?

Date: 2012-01-04 01:03 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Вроде тот же windbg(KD в консольной ипостаси) умеет, причем вплоть до коннекта с соседней машины по ком-порту или firewire.

Date: 2012-01-04 01:49 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
оно еще по УПШ умеет, но там затейливые грабли - зависимость от сорта винды и аппаратного сорта УПШ-контроллера, а их (типов) в реальности заметно больше трёх.

Date: 2012-01-05 10:53 am (UTC)
From: [personal profile] ex0_planet
От УПШ там требуется ровно одно: поддержка debug mode первым EHCI контроллером, к сожалению, об этом нигде не пишут -- приходится выяснять методом проб и ошибок. Ну и небесплатный донгл еще нужен, да.

Date: 2012-01-05 11:11 am (UTC)
From: [identity profile] nicka-startcev.livejournal.com
>поддержка debug mode первым EHCI контроллером

Вот-вот. Даже отэнумерейтить по-человечески не могут.

Date: 2012-01-05 10:54 am (UTC)
From: [personal profile] ex0_planet
KD -- это _только_ для соседней машины, режим отладки себя там есть, но он крайне ограниченный, поскольку весь дебаггер крутится как нормальный процесс.

Date: 2012-01-04 01:12 pm (UTC)
From: [identity profile] skif-by.livejournal.com
Да, windbg, как ребе советует. К сожалению, SoftICE R.I.P.

Date: 2012-01-04 01:49 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
софтайс рип примерно с появлением пси-экспресс. :)
если машина антикварная, без пси-экспресс, то скорее всего софтайс заведется.

Date: 2012-01-04 04:04 pm (UTC)
From: [identity profile] thedeemon.livejournal.com
на фоне соседних постов "пси" читается как глагол

Date: 2012-01-04 04:54 pm (UTC)
From: [identity profile] nicka-startcev.livejournal.com
причём, не относящийся к психике.

Date: 2012-01-04 01:40 pm (UTC)
From: [identity profile] fas-tm.livejournal.com
Я помню таким же образом ловил багу.
Отличие было в том что софт был в Киеве, я в Минске, канал был тощий.
Брякпоинт отлавливался с задержкой такой нехилой :)

Фокус бага был в том что приходил мега пакет XML из данных которого
формировалась динамически форма с контролами. Юзер натасканный на горячие клавиши
иногда успевал жмякнуть на хоткей до того как объект формы был готов и отрендерен.

Date: 2012-01-04 06:25 pm (UTC)
From: [identity profile] exemok.livejournal.com
Ребе, а это точно была не проктология?

Date: 2012-01-04 06:28 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Проктология - делать то же самое, но с чужим софтом, без исходников.

Date: 2012-01-05 05:05 am (UTC)
From: [identity profile] nivanych.livejournal.com
"Ты тут проктологию с ювелирным делом не путай!" ;-)

Date: 2012-01-04 10:58 pm (UTC)
From: [identity profile] cottidianus.livejournal.com
всё правильно сделал

Date: 2012-01-04 11:14 pm (UTC)
From: [identity profile] rigidus.livejournal.com
Однако, судя по кол-ву восхищенно-испуганных комментов ныне это уже забытое шаманское искусство... Жаль. Я много времени провел под отладчиком в конце девяностых...

Date: 2012-01-04 11:37 pm (UTC)
From: [identity profile] metaclass.livejournal.com
Мало того, на самом деле такое знать вредно :)

Date: 2012-01-06 04:10 am (UTC)
From: [identity profile] metaclass.livejournal.com
Знание подобных вещей не дает нормально работать в проектах, где желательно пользоваться только высокоуровневыми абстракциями.

Profile

metaclass: (Default)
metaclass

April 2017

S M T W T F S
      1
2345678
9101112 131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 5th, 2025 09:52 am
Powered by Dreamwidth Studios