Seoul, Seoul, South KoreaFull-timeMidCompetitiveMay 31, 2026
Share
Job Description
합류하게 될 팀에 대해 알려드려요토스증권 ML Engineer(Platform)는 Product Division 내 ML Platform Team에 속해 있어요.ML Platform Team의 목표는 토스증권의 다양한 AI/ML 서비스들을 효율적이고 안정적으로 개발하고 운영할 수 있는 최적의 머신러닝 플랫폼을 만드는 거예요.합류하면 함께 할 업무에요☑️ ML서비스의 관문인 Gateway 시스템을 개발하고 고도화해요.전사 LLM API 요청을 처리하는 Gateway 시스템을 Fast
API 기반으로 개발
운영해요.Fast
API로 구현된 Gateway 애플리케이션에서 인증, 라우팅, 트래픽 제어, 장애 격리(Circuit Breaker, Fallback), 대규모 TPS 처리 및 부하 분산 전략을 애플리케이션,인프라 관점에서 설계
구현해요.☑️ ML 서비스 운영과 서빙을 책임져요.Kubernetes 환경에서 머신러닝 모델 서빙 시스템을 직접 운영해요.대규모 트래픽 상황에서도 안정적으로 동작할 수 있도록 LLM 서빙 아키텍처를 설계
개선해요.서비스 중인 모델의 latency, 에러율, 리소스 사용량 등을 모니터링하고, 운영 이슈를 직접 분석
해결해요.장애 발생 시 근본 원인을 규명하고, 운영 정책이나 아키텍처를 포함한 구조적인 개선까지 수행해요.☑️ 전사 공통 ML 플랫폼을 개발하고 운영해요.Kubeflow 기반으로 사내 ML/LLM 모델의 학습 및 서빙을 효율적으로 운영할 수 있는 공통 플랫폼을 개발
운영해요.플랫폼에서 실행되는 워크로드의 성능과 리소스를 지속적으로 모니터링하고 최적화해요.☑️ LLM 기반 서비스를 위한 인프라 환경을 구축해요.vLLM, SGLang, Triton 등 다양한 서빙 프레임워크를 활용해 LLM 서비스를 운영해요.H100/B300 등 고성능 GPU 클러스터에서 학습
서빙 워크로드가 안정적으로 동작하도록 환경을 관리해요.금융 도메인 특화 LLM을 위한 대규모 데이터 학습 환경을 구축
운영해요.이런 분과 함께하고 싶어요Python, Go, Java, Kotlin 중 하나 이상의 언어에 능숙하며, 프로덕션 환경의 API 서버를 설계
개발해 본 경험이 필요해요.API Gateway(Nginx, Kong 등) 또는 LLM Router(Lite
LLM, Envoy AI Gateway 등)를 개발하거나 운영하며, 대용량 트래픽 처리 및 장애 대응 경험이 필요해요.Kafka, Elasticsearch, Kibana 등과 연동해 서빙 로그 및 이벤트 파이프라인을 운영해 본 경험이 필요해요.Prometheus, Grafana 등을 활용해 모델 서빙 모니터링 지표를 정의하고 대시보드를 구성
운영해 본 경험이 필요해요.KServe, Bento
ML, vLLM, SGLang 등을 활용해 ML/LLM 모델 서빙을 운영해 본 경험이 필요해요.Kubernetes 환경에서 MLOps 컴포넌트(Kubeflow, KServe, Airflow, Argo CD, MLflow 등)를 직접 운영하며 장애를 디버깅하고 해결해 본 경험이 필요해요.서비스 운영 중 발생한 이슈에 대해 단기적인 대응을 넘어, 근본 원인 분석을 통해 장기적인 개선 방안을 설계
적용해 본 경험이 필요해요.이런 경험이 있다면 더 좋아요 MSA(Microservices Architecture) 환경에서 REST, gRPC API를 활용한 서비스 간 통신 및 트랜잭션 처리에 능숙하면 좋아요.다양한 분산 시스템 설계 전략을 활용해 대규모 트래픽 환경을 안정적으로 운영해 본 경험이 있다면 좋아요.Azure AI Foundry, Azure AI Studio, AWS Bedrock, AWS Sage
Maker 등 Public Cloud 환경에서 MLOps 또는 LLMOps 컴포넌트를 운영해 본 경험이 있다면 더 좋아요.vLLM, SGLang 등을 활용해 LLM 서빙 병목을 분석하고 성능을 최적화해 본 경험(또는 관련 오픈소스 기여 경험)이 있다면 더 좋아요.disaggregated serving, prefix-aware routing, context caching 등 LLM 기반 시스템을 설계하고 최적화해 본 경험이 있다면 더 좋아요.Kubernetes Operator 또는 Scheduler 등 Kubernetes 확장 컴포넌트를 설계
개발해 본 경험이 있다면 더 좋아요.데이터 전처리부터 학습, 배포, 품질 관리, 재학습까지 머신러닝 파이프라인을 실제 서비스 환경에서 운영해 본 경험이 있다면 더 좋아요.이력서는 이렇게 작성하시는 걸 추천해요임팩트 있었던 업무/프로젝트와 그 결과에 대해 구체적으로 적어주세요.기술적으로 외부 공개가 민감한 사항일 경우, 해당 부분은 제외해 주세요.해결한 문제들에 대해 어떤 방법론들을 어떤 이유로 적용했는지 자세히 적어주세요.토스증권에서 사용하는 기술Workflow & Platform: Kubernetes, Kubeflow, Argo CD, Argo Workflows, Airflow
Model Serving & Optimization: vLLM, SGLang, KServe, Bento
Cloud & Infra: GPU Cluster (A40/A100/H100/H200/B300), Kubernetes 기반 ML 인프라토스증권으로의 합류여정서류접수 > 프리 인터뷰 > 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사꼭 확인해 주세요이력서 및 제출 서류에 허위 사실이 발견되거나 근무 이력 중 징계사항이 확인될 경우, 채용이 취소될 수 있어요.토스증권 내규에 따라 채용 금지자 또는 결격사유 해당자는 채용이 취소될 수 있어요.장애인 및 국가보훈대상자는 지원 시 관련법에 따라 우대하고 있어요.함께 할 동료를 위한 한마디"AI/ML플랫폼을 대규모로 구축, 확장 해 나가면서 함께 성장할 동료를 기다리고 있어요!"토스증권은 H100을 시작으로 B300 등 고성능 GPU 인프라를 확장하고 있어요. 이러한 인프라를 바탕으로 다양한 ML서비스를 안정적으로 운영할 ML플랫폼을 함께 만들어 갈 분을 찾고 있어요.지금까지는 플랫폼의 토대를 다져왔고, 앞으로는 더 많은 서비스와 트래픽을 효율적으로 감당하기 위한 스케줄링
운영성 개선을 본격적으로 진행하려고 해요. 대규모 GPU 클러스터 기반 ML 플랫폼의 초기 설계 단계부터, 확장되어 가는 전 과정에 함께하며 성장하고 싶은 분을 기다리고 있어요!
Verified Listing
This role has been verified for authenticity, market-rate compensation, and remote eligibility.