Profile image

Роман Николаев

Team Lead & Site Reliability Engineer

Обо мне

В ИТ более 15 лет: начинал системным администратором, работал в госсекторе, в банковской сфере, и даже когда-то давно был web-мастером.

Моя специализация — системы мониторинга (метрики, логи, Tracing, APM): архитектура, процессы, алертинг, визуализация.

Обладаю опытом SRE: построение процесса дежурств, наблюдаемость (мониторинг, алерты, SLA), написание постмортемов, создание архитектуры отказоустойчивых сервисов. Также есть опыт руководителя (Team/Tech Lead SRE): планирование, приоритезация, работа с обратной связью, ревью.

Опыт работы

SRE & Team Lead

2016 – ...

Участие в проектах собственной разработки Т‑Банк:

  • Sage — Full-stack observability platform, которая обеспечивает мониторинг ИТ-инфраструктуры и всех сервисов компании в режиме реального времени.
    Проект очень важен для компании — как с точки зрения мониторинга всех своих сервисов и ИТ-инфраструктуры, а также как внешний продукт. Принимал непосредственное участие в создании этой системы.

  • Time — корпоративный мессенджер, который обеспечивает коммуникацией каждый день тысячи сотрудников компании.
    Сложно переоценить, как важны для компании внутренние коммуникации и автоматизация процессов вокруг этого. Участвовал в сопровождении и повышении надежности системы, а также организовал процесс поставки системы в качестве внешнего продукта (On-Premise).

  • Участие в различных проектах, связанных с мониторингом: Nagios, Cacti, Zabbix, Prometheus, VictoriaMetrics, InfluxDB, ELK, Grafana, и других.

Роль SRE (инженер по надежности): автоматизация, сопровождение (обновление ОС/ПО, добавление нового оборудования, проведение плановых работ), меры по повышению стабильности (мониторинг, изменение архитектуры, оптимизация использования ресурсов), DevOps (CI/CD), дежурство (oncall, траблшутинг, написание постмортемов, и т.д.).

Роль SRE Team Lead (команда из 10 человек): построение процессов (Agile/Kanban, ретроспективы), распределение и приоритезация задач (Jira, методы WSJF/ICE/RICE), планирование (Daily, ретроспектива, Roadmap, квартальные отчеты, OKR), проведение собеседований, найм новых сотрудников, улучшение процессов найма, создание онбординга в команду, повышение квалификации команды (проверка навыков, обучение сотрудников и составление целей на развитие).
Повысил свои навыки, пройдя различные внутренние курсы по лидству и успешно применяя полученные знания на практике, что обеспечило создание сплоченной и дружной команды.

Выступление с докладом на Saint HighLoad++ 2023, также есть статья-расшифровка «7 петабайт логов в Elastic».

Передача знаний (внутри компании и вовне):

  • наставничество — повышение уровня знаний у коллег на длительной основе
  • менторство — короткая серия встреч по интересующему вопросу
  • стажировки — набор стажеров в команду и их обучение
  • Тинькофф Финтех — участие в проведении курсов по направлению DevOps/SRE (выпуски: 2018, 2019)

Проведение собеседований: Computer Science, Troubleshooting.

Достижения

Прошел путь: SysAdmin → Middle SRE → Senior SRE → Team Lead. Участвовал в построении высоконагруженной системы, которая покрывает мониторингом всю компанию, и выдерживает высокий SLA.

  • SRE
  • Тимлидство
  • Менторство
  • Проведение собеседований
  • Выступление на SHL++ 2023
  • Общение с клиентами On-Premise/Cloud

Технологии

  • Bash
  • Python
  • Java
  • Javascript
  • C#
  • MySQL
  • PostgresSQL
  • Grafana
  • Nagios
  • Zabbix
  • Prometheus
  • VictoriaMetrics
  • InfluxDB
  • ELK
  • GitLab
  • kustomize
  • Helm
  • Ansible
  • Terraform

Администратор систем мониторинга

2013 – 2016

Администрирование и сопровождение систем мониторинга:

  • CA Spectrum (мониторинг ИТ-инфраструктуры: ЦОД, ГО, многочисленные офисы в МиМО/регионах, создание сервисной модели приложений);
  • CA Wily (мониторинг приложений);

Разработка обновленной архитектуры мониторинга всей ИТ-инфраструктуры банка (CA Spectrum): совместная работа с другими подразделениями / внешними подрядчиками, написение документации/инструкций для дежурной смены, обучение сотрудников и передача опыта.

Интеграция с другими системами мониторинга: MS SCOM, Oracle Enterprise Manager (OEM), SAP Solution Manager.

Организация и курирование новых проектов: пилотирование систем мониторинга, внедрение, перевод бизнес-пожеланий на язык технических требований, проверка результатов: Riverbed, AppDynamics, CA Nimsoft/UIM, CA Performance Management, CA Service Operations Insight и других.

Достижения

Появился опыт сопровождения и внедрения Enterprise-решений для мониторинга (общение с англоязычной техподдержкой, составление инструкций, скрипты для переноса данных и т.д.), а также мониторинга на основе SNMP. Периодически выполнял роль заместителя отдела.

Технологии

  • CA Spectrum
  • CA Nimsoft/UIM
  • CA Performance Management
  • CA Service Operations Insight
  • CA Wily
  • Riverbed APM
  • AppDynamics
  • SNMP
  • Bash
  • Power Shell

Web-мастер

Argosy Technologies
2011 – 2013

  • Создание новых сайтов компании с нуля**: argosy-tech.ru и argosy-tech.com.
  • Расширение функционала сайта: продвинутые онлайн-опросники, формы обратной связи, интерактивная карта представительств, интерактивное слайдшоу, и т.д.
  • Создание с нуля по собственной инициативе внутреннего корпоративного портала с целью структурирования большого объема информации, упрощения взаимодействия между отделами и региональными представительствами, увеличения скорости обработки менеджерами запросов от клиентов.
  • Выполнение задач контент-менеджера: добавление и верстка всех материалов, создание и обработка практически всей графики, совместная работа в команде с PR-отделом для увеличения присутствия и цитируемости в Интернете, а также в бумажных изданиях.
  • Создание автоматизированной системы составления отчётов и протоколов для Сургутнефтегаза.

Достижения

Модернизация коснулась не только сайтов, но и их наполнения (переписаны практически все тексты). Также расширено присутствие компании в информационном поле и бумажных журналах.

Технологии

  • Joomla
  • Wordpress
  • Bitrix
  • PHP
  • JavaScript
  • HTML/CSS
  • MySQL
  • Adobe Photoshop
  • Adobe Illustrator
  • Adobe Lightroom
  • CorelDRAW

Системный инженер

2010 – 2011

  • Администрирование серверов — настройка и оптимизация, установка ПО и дополнительных пакетов, обновление ОС и ПО, траблшутинг, написание скриптов и автоматизация процессов (Windows Server, AIX 5L).
  • Сопровождение и администрирование сервера приложений IBM WebSphere Application Server — установка/настройка/обновление, создание бэкапов, установка и запуск Java-приложений.
  • Организация бесперебойной работы связки IBM WAS + Oracle DB 11g.

Технологии

  • Windows Server
  • AIX
  • IBM WebSphere Application Server
  • Oracle DB

Системный администратор (мейнфремы)

2008 – 2010

  • Администрирование мейнфремов: сервер приложений IBM WebSphere Application Server, приложения на z/OS UNIX.
  • Администрирование Windows-серверов, работа с виртуальными серверами (VirtualBox, VMWare).
  • Cоздание web-приложений (PHP, Javascript, MySQL, MS SQL, DB2).
  • Администрирование системы мониторинга CA Unicenter TNG (старые названия продукта: NSM, TND), а также IBM Tivoli Monitoring.

Достижения

Старт карьеры начался с изучения z/OS и архитектуры мейнфреймов. Появился опыт работы с отказоустойчивыми инсталляциями серверов приложений и навыки работы с z/OS на уровне администратора. Также занимался мониторингом работы приложений и инфраструктуры.

Технологии

  • z/OS
  • IBM WebSphere Application Server
  • CA Unicenter TNG
  • IBM Tivoli Monitoring
  • HTML/DHTML
  • CSS
  • Javascript
  • PHP
  • MySQL
  • MS SQL
  • DB2

Навыки

OS

  • Linux/Unix
  • Windows Server
  • z/OS

Backend

  • Python/Django
  • C#
  • Java
  • PHP

Frontend

  • JavaScript
  • TypeScript
  • Node.js
  • HTML/CSS/SASS/LESS
  • Jekyll

Мониторинг

  • Grafana
  • Prometheus
  • VictoriaMetrics
  • Zabbix
  • Graphite
  • InfluxDB
  • Elastic (ELK)
  • Loki

Прочие навыки

  • Ansible
  • Bash
  • Power Shell
  • Git
  • GitLab CI
  • GitHub workflow
  • k8s
  • kustomize
  • Helm
  • Terraform

Образование

  • Инженер
    Российский университет транспорта — РУТ (МИИТ)
    2002 – 2007

Награды

Языки

  • Русский (родной)
  • Английский (документация)

Интересы