Profile image

Роман Николаев

Team Lead & Site Reliability Engineer

Обо мне

В ИТ более 15 лет: начинал системным администратором, работал в госсекторе, в банковской сфере, и даже когда-то давно был web-мастером.

Моя специализация — системы мониторинга (метрики, логи, Tracing, APM): архитектура, процессы, алертинг, визуализация.

Обладаю опытом SRE: построение процесса дежурств, наблюдаемость (мониторинг, алерты, SLA), написание постмортемов, создание архитектуры отказоустойчивых сервисов. Также есть опыт руководителя (Team/Tech Lead SRE): планирование, приоритезация, работа с обратной связью, ревью.

Опыт работы

SRE & Team Lead

2016 – ...
  • На должности тимлида команды SRE выстроил процессы (по Agile/Kanban) для сопровождения высоконагруженного сервиса, а также наладил процесс целеполагания (OKR).
  • Принял участие в создание Full-stack observability платформы (Sage), которая обеспечивает мониторинг всей ИТ-инфраструктуры и сервисов компании в реальном времени, что критически важно для стабильности бизнеса.
  • Повысил надежность корпоративного мессенджера (Time) и вывел его на рынок, организовав процесс поставки продукта внешним клиентам (On-Premise / SaaS), тем самым было открыто новое направление для развития бизнеса.
  • Активное менторство (закрыто более 10 запросов за год) позволяет сотрудникам компании повышать компетенции, решать комплексные задачи, а также строить планы для карьерного роста.
  • Проведение собеседований по секциям общих тех. вопросов и траблшутинга (более 50 собеседований в год) — это важная для компании активность, позволяющая отбирать сильных инженеров, что также повышает репутацию процессов найма компании.
  • Общение с клиентами, а также помощь в проведении пилотов и установки продуктов (Sage, Time) в результате значительно увеличило объемы продаж.
  • Выступление с докладом на конференции SHL++ 2023 (доклад вошел в ТОП-5) дало начало серии рассказов про систему Sage — это увеличило узнаваемость продукта на рынке observability-систем.

Администратор систем мониторинга

2013 – 2016
  • Решил множество архитектурных вопросов по обновлению мониторинга в масштабах всей компании.
  • Наладил межкомандные процессы, которые помогают поддерживать мониторинг в актуальном состоянии.
  • Интегрировал дополнительные системы мониторинга в общую систему для улучшения наблюдаемости.
  • Взял на себя роль куратора по различным проектам мониторинга (пилоты новых систем, сопровождение и оптимизация текущей системы).
  • Помощь в организация работы дежурной смены (улучшил процессы, написал инструкции, дополнил руководства).

Технологии

  • Bash
  • Python
  • Java
  • Javascript
  • C#
  • MySQL
  • PostgresSQL
  • Grafana
  • Nagios
  • Zabbix
  • Prometheus
  • VictoriaMetrics
  • InfluxDB
  • ELK
  • GitLab
  • kustomize
  • Helm
  • Ansible
  • Terraform
  • CA Spectrum
  • CA Nimsoft/UIM
  • CA Performance Management
  • CA Service Operations Insight
  • CA Wily
  • Riverbed APM
  • AppDynamics
  • SNMP
  • Power Shell
  • Joomla
  • Wordpress
  • Bitrix
  • PHP
  • JavaScript
  • HTML/CSS
  • Adobe Photoshop
  • Adobe Illustrator
  • Adobe Lightroom
  • CorelDRAW
  • Windows Server
  • AIX
  • IBM WebSphere Application Server
  • Oracle DB
  • z/OS
  • CA Unicenter TNG
  • IBM Tivoli Monitoring
  • HTML/DHTML
  • CSS
  • MS SQL
  • DB2

Навыки

OS

Linux/Unix, Windows Server, z/OS

Backend

Python, C#, Java, PHP

Frontend

JavaScript, TypeScript, Django, Node.js, HTML/CSS/SASS/LESS, Jekyll

Мониторинг

Grafana, Prometheus, VictoriaMetrics, Zabbix, Graphite, InfluxDB, Elastic (ELK), Loki

Прочие навыки

Ansible, Bash, Power Shell, Git, GitLab CI, GitHub workflow, k8s, kustomize, Helm, Terraform

Образование

  • Инженер
    Российский университет транспорта — РУТ (МИИТ)
    2002 – 2007

Языки

  • Русский (родной)
  • Английский (документация)