전체 글 669

Kubernetes 네트워크 동작원리

쿠버네티스 네트워크의 핵심 개념은 2가지이다. 1) kube-proxy2) CNI ( Container Network Interface ) kube-proxy는 서비스에서 파드로 트래픽을 이동시키는 역할을 하고 CNI는 서로 다른 노드 간의 트래픽 이동을 담당한다. 만약 A 노드에 배포된 kube-proxy가 B 노드에 있는 파드로 트래픽을 이동시킨다고 하면 서로 다른 노드이므로 CNI를 타고 트래픽을 이동하는 것이다. 정리하면트래픽 이동을 위한 룰은 kube-proxy가 담당하고 실제 노드 간 트래픽 이동은 CNI가 담당하는 것이다. kube-proxy kube-proxy는 iptables라는 tool을 이용하여 netfilter가 바라보는 룰을 조작하는 프로그램이다. 리눅스 서버는 netfil..

DevOps/K8S 2025.06.18

Linux 환경에서 간단한 컨테이너 직접 만들어 보기

Linux에서 컨테이너를 만들어 보자. 컨테이너의 핵심은 '격리(isolation)'이다. 여기서 2가지 격리를 구현해야 한다. 1) 파일시스템 격리 -> chroot2) 프로세스 격리 -> unshare ( namespace ) 파일시스템 격리 파일시스템 격리는 chroot로 구현된다. chroot는 root의 경로가 변경된 또 다른 쉘(shell)을 띄우는 것이다. 터미널로 접속하면 우리는 정해진 위치를 root로 하여 쉘(shell) 프로그램을 구동하여 터미널에 접속한다. chroot는 또 다른 경로를 root로 하여 쉘을 구동한다. 쉘이 바라보는 루트는 달라지지만 쉘이 커널로 전송하는 경로는 동일하다. 그러므로 달라진 루트 위치에 bin폴더, proc 폴더, lib 폴더를 복사 및 생성하면..

DevOps/Linux 2025.06.12

[K8S] Containerd에 Registry 설정하기 ( with Harbor )

Containerd로 생성된 컨테이너가 특정 Registry에서 이미지를 가져오도록 설정해보자. https://github.com/containerd/containerd/blob/main/docs/cri/registry.md#using-self-signed-certificates containerd/docs/cri/registry.md at main · containerd/containerdAn open and reliable container runtime. Contribute to containerd/containerd development by creating an account on GitHub.github.com 공식문서에는 deprecated된 방법이 메인으로 작성되어 있어서 혼란이 있을..

DevOps/K8S 2025.06.04

Nebuly MPS Nvidia Device Plugin의 GPU 메모리 파티셔닝

이슈Nebuly 사에서 제공하는 오픈소스 Nvidia Device Plugin을 테스트 해본 결과, GPU가 1개일 때는 동적 파티셔닝을 제대로 이루어진다. GPU가 2개일 때는 GPU 0번의 파티셔닝은 제대로 이루어지지만 GPU 1번의 파티셔닝이 제대로 되지 않음을 OOM 테스트를 통해 알게 되었다. 예를들어, 4GB로 메모리를 파티셔닝하면 GPU 0번에서 가상화된 GPU는 4GB만 쓰고 OOM이 발생하지만 GPU 1번에서 가상화된 GPU는 4GB를 넘어서 물리 GPU 전체 메모리를 사용한 후 OOM이 발생한다. 내용https://github.com/nebuly-ai/k8s-device-plugin/tree/v0.13.0?tab=readme-ov-file GitHub - nebuly-ai/k8s-d..

docker 데이터 저장 경로 변경 작업

현상 docker 데이터가 쌓여 /var/lib 파일시스템 사용률이 90%가 넘는 것을 확인하였다. 용량이 큰 파일시스템으로 Docker 저장경로를 변경하여 이슈를 해결하였다. docker 데이터 저장 경로 변경 작업 1)새로운 저장 경로 설정 추가daemon.json 파일에 "data-root": "/data/docker/" 설정을 추가한다. 기존 저장 경로 : /var/lib/docker새로운 저장 경로 : /data/docker 예시)root@test:/# cat /etc/docker/daemon.json{ "data-root": "/data/docker", "default-runtime": "nvidia", "runtimes": { "nvidia": { ..

Host DNS 설정 변경 시, CoreDNS 파드 재시작 필요

GPU Operator로 Nvidia Driver 파드를 띄우는 과정에서 DNS 관련 resolving 에러가 발생하였다. W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy/InRelease Temporary failure resolving 'archive.ubuntu.com'W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy-updates/InRelease Temporary failure resolving 'archive.ubuntu.com'W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy-security/I..

노드 재부팅 후 K8S 클러스터가 동작하지 않은 현상 ( swap off )

현상K8S 클러스터를 구축한 노드를 재부팅 하였더니, kubectl 명령이 동작하지 않은 현상이 발생 원인journalctl로 kubelet 로그를 확인한 결과, kubelet이 swap이 켜져 있어 동작하지 못한다는 로그를 뱉고 있었음. 해결클러스터 구축 당시, swap 기능을 off 했지만, /etc/fstab 에 swap 관련 줄을 주석처리 하지 않아, 재부팅 후 swap 기능이 다시 on되어 발생한 현상.

BIRD is not ready: BGP not established 이슈

이슈K8S 클러스터의 노드 하나가 BGP 커넥션 형성 실패 ( BIRD is not ready: BGP not established ) 설명CNI로 Calico를 사용중이다. Calico는 클러스터의 각 노드에 가상라우터를 생성하고 BGP 방식으로 각 노드의 파드 서브넷을 광고하고 서로의 라우팅 테이블을 학습한다. 그러므로 BGP 커넥션이 형성이 중요한데 형성되지 못하는 이슈가 발생하였다. Calico Node 파드 로그 Warning Unhealthy 16m (x2 over 17m) kubelet Readiness probe failed: calico/node is not ready: BIRD is not ready: Error querying BIRD: unable to..