DevOps engineer
Прямой работодатель xAID ( xaid.ai )
Опыт работы любой
xAID – это MedTech стартап, который помогает рентгенологам обрабатывать КТ исследования быстрее и точнее. Мы умеем находить более 30 различных патологий, начиная от рака легкого и заканчивая переломами позвоночника.
За 4 года сделали самую быстрорастущую компанию в сегменте AI для медицинских изображений. Работаем на рынках Казахстана, Европы, ОАЭ и Бразилии. К концу года планируем закрыть ещё один раунд и подготовиться к выходу на рынок США.
Подробнее о нас: https://xaid.ai/
Ищем DevOps-инженера на part-time для решения ключевых инфраструктурных задач, которые сейчас ограничивают развитие и стабильную работу нашей платформы. В перспективе возможен переход на full-time.
В этой роли ты будешь влиять на безопасность, отказоустойчивость и масштабируемость системы в MedTech-проекте, где стабильность инфраструктуры напрямую отражается на качестве медицинской диагностики и, в конечном итоге, на жизнях людей.
В проде у нас десятки микросервисов, машинное обучение, сложная инфраструктура, которую мы стремимся сделать максимально автоматизированной, безопасной и отказоустойчивой.
Что нужно делать:
- Настроить удобный и безопасный деплой из GitLab CI (единые пайплайны)
- Развивать и сопровождать инфраструктуру в Docker Swarm
- Обеспечить отказоустойчивость БД, брокеров, кэшей (кластеризация, failover)
- Настроить мониторинг и алерты для инфраструктурных и прикладных сервисов (Prometheus, Grafana, Alertmanager, exporters)
- Построить безопасный периметр: VPN, Teleport, firewall, auditd
- Автоматизировать раскатку конфигураций (nginx, ansible, CI)
- Централизовать логирование (Loki / ELK + Vector/Filebeat + JSON)
- Подготовить инфраструктуру к работе в нескольких географиях
- Внедрить систему инвентаризации серверов и учётной политики (Netbox, FreeIPA)
Технологии:
- CI/CD: GitLab CI
- Контейнеризация: Docker + Swarm
- GPU: NVIDIA GPU-серверы, CUDA, nvidia-docker, DCGM / nvml-exporter
- Мониторинг: Prometheus, Alertmanager, Grafana, cadvisor, node_exporter
- Сети: виртуальные сети (VLAN, overlay), VRRP, NAT, firewall, туннели, балансировка, VPN
- Безопасность: Teleport / FreeIPA, auditd
- Базы/Очереди: PostgreSQL, Redis, RabbitMQ — всё в кластерном режиме
- IaC: Ansible, Terraform, Netbox
- Логирование: Grafana Loki / ELK, Filebeat, Vector, JSON-логи
- Web: nginx с автоматической раскаткой, откатом и тестами
Сильным кандидатом будет считаться специалист, который:
- 3+ лет опыта как DevOps / SRE-инженер
- Уверенное владение GitLab CI/CD, Docker, мониторингом (Prometheus + exporters)
- Понимание кластеризации сервисов и обеспечения отказоустойчивости
- Опыт работы с GPU-серверами на базе NVIDIA: установка/обновление драйверов, настройка CUDA, nvidia-docker, работа с DCGM/nvml-exporter
- Сильные знания сетей: проектирование виртуальных сетей и связности между сервисами (VLAN, overlay), настройка NAT, firewall, VPN, балансировка, опыт настройки VRRP и отказоустойчивых шлюзов
- Умение работать с безопасностью инфраструктуры (аутентификация, доступ, firewall)
- Опыт работы с IaC (Ansible, Terraform)
- Способность проектировать и документировать масштабируемую архитектуру
- Умение быстро разбираться в чужом коде/инфре и предлагать улучшения
Плюсом будет:
- Знание альтернатив CI/CD-систем (ArgoCD, Flux, Drone)
- Настройка Teleport, FreeIPA, Vault
- Опыт мультиконтурной архитектуры (разделение по регионам, конфиденциальности)
Что мы предлагаем:
- Оплата в валюте / крипте;
- Высокий уровнь свободы в принятии решений;
- Конкурентный по рынку доход, в зависимости от кандидата по итогам собеседований;
- Команда, состоящую из талантливых людей из совершенно разных миров (IT и медицины) и работающие над общей целью;
- Работа из любой точки мира;
- Impact-проект, позволяющий напрямую влиять на жизни людей.
Откликнуться тут: https://forms.gle/EYQHjHFubEKPErST8