Це історія про реальний біль і дорослішання системи логування. Ми подивимось, як відсутність стандартів ламають observability. Я покажу, чому Kubernetes став точкою неповернення і змусив нас переглянути підхід до логів. Розберемо вимоги та архітектурні рішення, які дозволили повернути контроль. Поділюсь практичним досвідом побудови керованих лог-пайплайнів без магії і “чарівних інструментів”. Це чесна історія з продакшну.
Олександр Шевченко
(DevOps Engineer, ONSEO),Ця доповідь демонструє практичні підходи до unified observability, де метрики, логи, траси та профілі інтегровані для швидкої діагностики проблем у розподілених системах. Розглянемо техніки кореляції даних через traceId та лейбли для миттєвого переходу від помилок до конкретних span'ів, налаштування continuous profiling для preview-середовищ, використання flame charts для аналізу продуктивності, dependency maps і service graphs для візуалізації архітектури. Окрема увага приділена AI-специфічним аспектам: застосування AI-асистентів для автоматизації root cause analysis та впровадження AI Evals для систематичного оцінювання якості, коректності та надійності AI-систем.
Денис Васильєв
(Principal Site Reliability Engineer / UK Global Talent Visa Holder),Ми звикли довіряти відчуттям: здається, що процеси працюють, а продукт якісний. Але відчуття не масштабуються. У цій доповіді я покажу, як ми перейшли від інтуїтивних рішень до системи метрик, яка вимірює якість продуктів і процесів у реальному часі. Як команди, маючи «приборну панель», самі керують розвитком своїх продуктів із точки зору якості. І головне — як технічні метрики стають зрозумілими бізнесу, допомагають говорити про ризики однією мовою й приймати рішення на масштабі.
Ігор Дрозд
(CTO, Silpo(E-commerce)),Розкажу про валідацію та моніторинг AI-агентів на прикладі мобільного додатку, що працює з мультиагентною системою через OpenAPI. Продемонструю практичні підходи до тестування логіки агентів, методи збору метрик їхньої роботи та налаштування observability системи. Поділюся досвідом відстеження поведінки агентів у реальному часі, виявлення аномалій та забезпечення надійності мультиагентної архітектури в продакшені.
Олександр Денисюк
(R&D manager at MODUS X),Поговоримо про архітектурні рішення, які дозволяють Elasticsearch залишатися стабільним під високим навантаженням: правильна організація індексів і шардів, політики ILM, використання persistent queues у Logstash, даунсемплінг метрик та моніторинг самої observability-системи. Поділюся досвідом побудови надійної платформи з терабайтами логів і мільйонами подій на день.
Антон Приходько
(EPAM, Systems Architect),
Костянтин Шароварський
(Jooble),