생성형 AI와 스테이블 디퓨전

생성형 AI(Generative AI)는 2023년을 기점으로 폭발적 성장을 이루며 창작 산업 전반을 변화시켰다. 이미지 생성 AI의 핵심 기술인 스테이블 디퓨전(Stable Diffusion)은 2022년 8월 모델 가중치가 유출되면서 예상치 못한 방식으로 AI 기술 민주화를 가속시켰다.

디퓨전(Diffusion) 프로세스는 이미지에 노이즈를 점진적으로 추가했다가 제거하는 방식으로 이미지를 생성한다. 순방향(Forward) 과정에서 원본 이미지에 단계적으로 가우시안 노이즈를 더해 완전한 노이즈 상태로 만들고, 역방향(Reverse) 과정에서 노이즈 예측 모델이 노이즈를 제거해 원본을 복원하거나 새 이미지를 생성한다. 이 원리를 이미지 생성에 활용하면 텍스트 프롬프트에 맞는 이미지를 노이즈 상태에서 점진적으로 선명하게 만들어낼 수 있다.

ComfyUI는 노드 기반 인터페이스로 스테이블 디퓨전을 비프로그래머도 활용할 수 있게 한다. 각 처리 단계를 노드로 시각화해 모델 로딩, 프롬프트 입력, 샘플러 설정, 이미지 출력까지 파이프라인을 직접 구성할 수 있다. 이는 복잡한 AI 워크플로우를 코딩 없이 실험·수정할 수 있게 해주는 로우코드(Low-code) 접근법이다.

생성형 AI의 빠른 확산은 단순히 기술적 발전 때문만이 아니라, 오픈 소스 커뮤니티의 공개와 공유 문화가 결합된 결과다. 창작자·연구자·개발자 모두가 이 기술을 활용하고 개선할 수 있게 되었다는 점에서 AI 개발은 인류 전체의 진보를 위한 과정으로 평가된다.

핵심 내용

스테이블 디퓨전: 노이즈 추가→제거 반복으로 이미지를 생성하는 확산 모델
2022년 8월 모델 가중치 유출로 오픈 소스 생태계 급성장
ComfyUI: 노드 기반 시각적 파이프라인으로 비개발자도 활용 가능한 인터페이스
프롬프트 엔지니어링: 텍스트로 이미지 생성 방향을 제어하는 핵심 스킬
디퓨전 모델의 역방향 과정(노이즈 제거)이 이미지 품질을 결정

관련 개념

AI 코딩 도구 활용 — 생성형 AI를 실무 창작 도구로 활용하는 흐름
AI를 위한 UI 패턴과 UX — 생성형 AI 서비스의 사용자 인터페이스 설계
텍스트 임베딩과 데이터 시각화 — 텍스트를 벡터로 변환하는 임베딩 기술과의 연관성

생성형 AI로 견종 NFT PFP 344개 만들기 — 가능성과 한계: pxd 프로덕트 디자이너가 Midjourney(미드저니)를 사용해 전 세계 344개 견종 전체의 PFP(Profile Picture) NFT를 제작하는 실험을 진행했다. 프로세스는 스타일 선정(sref random 파라미터로 분홍빛 팝아트 스타일 선택) → Describe 기능으로 최적 프롬프트 역추출 → 견종별 반복 생성 순서로 진행됐다. 결과적으로 아키타·달마티안처럼 학습 데이터가 풍부한 견종은 원활하게 생성됐지만, 비숑 프리제와 베들링턴 테리어처럼 덜 알려진 견종은 다른 견종과 혼동되거나 특징을 정확히 재현하지 못했다. 해결책으로 베리 리전(Vary Region) 기능으로 특정 부위를 수정하고, 포토샵 생성형 채우기를 추가 활용했다. 핵심 교훈: 생성형 AI는 요술 방망이가 아닌 전동드릴 — 사람이 방향을 잡고 끊임없이 조작해야 좋은 결과를 얻는다. 미드저니의 Describe, Style Reference(sref), Vary Region 세 기능의 조합이 고품질 결과물 도출의 핵심이었다.

출처

[pxd talks] 생성형AI와 스테이블 디퓨전의 이해 — 2024-07-15, elyoob_박유빈
생성형 AI, 세상 모든 견종 NFT를 만들 수 있을까? — 임현경, AI 이야기