TroubleShooting 7

[GitLab] unauthorized: authentication required 오류

GitLab Runner로 이미지를 GitLab Registry로 Push하던 중 unauthorized: authentication required 오류가 발생하였다. docker push gitlab.example.com/myproject/docs:latestThe push refers to a repository [gitlab.example.com/myproject/docs]630816f32edb: Preparing530d5553aec8: Preparing...4b0bab9ff599: Waitingd1c800db26c7: Waiting42755cf4ee95: Waitingunauthorized: authentication required docker login도 잘 되어서 의아했는데 공식문서에..

TroubleShooting 2025.08.26

Traefik에서 대량으로 포트 오픈 시 발생한 이슈

이슈사항 Kubernetes Ingress Controller로 Traefik을 사용하고 있다.Traefik 로드밸런서에 MetalLB로 외부 ip를 부여하고 EntryPoint을 등록해서 Port를 열려고 하는데 문제가 하나 발생했다. 단일한 포트 몇 개 여는데는 문제가 없으나 특정 범위의 포트를 일괄 개방하려니, Traefik에서 해당 기능을 지원하지 않았다. 그래서 파이썬 코드를 작성하여 특정 범위의 포트를 모두 단일 포트로 Traefik Helm의 values.yaml에 직접 넣어주었더니... values.yaml 이 거대해짐에 따라 여러가지 문제가 발생하였다. 결론부터 말하면이슈가 여러 개 발생하여, 결국 만 개에서 7천개 정도로 개방할 포트 수를 줄여서 임시방편으로 문제를 해결하였다. 내..

Nebuly MPS Nvidia Device Plugin의 GPU 메모리 파티셔닝

이슈Nebuly 사에서 제공하는 오픈소스 Nvidia Device Plugin을 테스트 해본 결과, GPU가 1개일 때는 동적 파티셔닝을 제대로 이루어진다. GPU가 2개일 때는 GPU 0번의 파티셔닝은 제대로 이루어지지만 GPU 1번의 파티셔닝이 제대로 되지 않음을 OOM 테스트를 통해 알게 되었다. 예를들어, 4GB로 메모리를 파티셔닝하면 GPU 0번에서 가상화된 GPU는 4GB만 쓰고 OOM이 발생하지만 GPU 1번에서 가상화된 GPU는 4GB를 넘어서 물리 GPU 전체 메모리를 사용한 후 OOM이 발생한다. 내용https://github.com/nebuly-ai/k8s-device-plugin/tree/v0.13.0?tab=readme-ov-file GitHub - nebuly-ai/k8s-d..

docker 데이터 저장 경로 변경 작업

현상 docker 데이터가 쌓여 /var/lib 파일시스템 사용률이 90%가 넘는 것을 확인하였다. 용량이 큰 파일시스템으로 Docker 저장경로를 변경하여 이슈를 해결하였다. docker 데이터 저장 경로 변경 작업 1)새로운 저장 경로 설정 추가daemon.json 파일에 "data-root": "/data/docker/" 설정을 추가한다. 기존 저장 경로 : /var/lib/docker새로운 저장 경로 : /data/docker 예시)root@test:/# cat /etc/docker/daemon.json{ "data-root": "/data/docker", "default-runtime": "nvidia", "runtimes": { "nvidia": { ..

Host DNS 설정 변경 시, CoreDNS 파드 재시작 필요

GPU Operator로 Nvidia Driver 파드를 띄우는 과정에서 DNS 관련 resolving 에러가 발생하였다. W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy/InRelease Temporary failure resolving 'archive.ubuntu.com'W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy-updates/InRelease Temporary failure resolving 'archive.ubuntu.com'W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy-security/I..

노드 재부팅 후 K8S 클러스터가 동작하지 않은 현상 ( swap off )

현상K8S 클러스터를 구축한 노드를 재부팅 하였더니, kubectl 명령이 동작하지 않은 현상이 발생 원인journalctl로 kubelet 로그를 확인한 결과, kubelet이 swap이 켜져 있어 동작하지 못한다는 로그를 뱉고 있었음. 해결클러스터 구축 당시, swap 기능을 off 했지만, /etc/fstab 에 swap 관련 줄을 주석처리 하지 않아, 재부팅 후 swap 기능이 다시 on되어 발생한 현상.

BIRD is not ready: BGP not established 이슈

이슈K8S 클러스터의 노드 하나가 BGP 커넥션 형성 실패 ( BIRD is not ready: BGP not established ) 설명CNI로 Calico를 사용중이다. Calico는 클러스터의 각 노드에 가상라우터를 생성하고 BGP 방식으로 각 노드의 파드 서브넷을 광고하고 서로의 라우팅 테이블을 학습한다. 그러므로 BGP 커넥션이 형성이 중요한데 형성되지 못하는 이슈가 발생하였다. Calico Node 파드 로그 Warning Unhealthy 16m (x2 over 17m) kubelet Readiness probe failed: calico/node is not ready: BIRD is not ready: Error querying BIRD: unable to..