본문 바로가기
IT

인공지능(AI)은 어떻게 사진, 영상을 만들어내는 걸까? GAN, 트랜스포머(Transformer), 디퓨전(Diffusion) 등에 대해 아는 척해보자!

by 작은비움 2025. 1. 13.
반응형

https://www.youtube.com/watch?v=3YOduhSeOIs

인공지능의 이미지 및 영상 생성 이해하기

인공지능(AI)의 발전과 함께, 사진과 영상 생성 기술이 빠르게 발전하고 있습니다. 이번 블로그에서는 인공지능이 이미지를 생성하는 방법과 그 과정에서 사용되는 다양한 기술들을 살펴보겠습니다. 특히 CNN, GAN, 트랜스포머, 디퓨전 모델 등 여러 기술이 어떻게 활용되는지 자세히 알아보겠습니다.

이미지의 이해

이미지를 생성하기 위해서는 먼저 이미지가 무엇인지 이해해야 합니다. 인공지능이 이미지를 제대로 인식하기 위해서는 이미지 인식 기술이 중요합니다. 과거에는 여러 방법들이 있었지만, 인식률이 그다지 높지 않았습니다. 그러나 딥러닝의 발전과 함께 이미지 인식률이 크게 향상되었고, 이 과정에서 CNN(합성곱 신경망)이 중요한 역할을 하였습니다.

합성곱 신경망(CNN)은 컴퓨터가 이미지를 0과 1의 숫자로 인식하도록 돕습니다. 예를 들어, RGB 값으로 픽셀 하나의 색을 표현합니다. CNN은 이미지의 부분을 떼어내어 필터와 결합하여 해당 부분의 공간적 시각적 패턴을 학습합니다. 낮은 계층에서는 간단한 특징을, 높은 계층에서는 복잡한 패턴을 학습하여 다양한 특징 맵을 생성합니다.

CNN 구조 설명 이미지

풀링 레이어는 이미지에서 중요한 정보를 유지하면서 이미지 크기를 줄여주어 계산량을 감소시키고, 이미지가 약간 움직여도 중요한 부분을 인식할 수 있도록 합니다. 이러한 과정을 반복하면서 주요 특징만 남게 됩니다. 이 정보들을 바탕으로 이미지를 분류하고 이해하는 것이 가능합니다.

이미지 생성 기술의 발전

이미지를 학습해서 분류할 수 있게 되면, 이를 활용하여 이미지를 생성하는 것도 가능해집니다. 인공지능의 이미지 생성 초창기에는 GAN(적대적 생성 신경망) 기술이 많이 활용되었습니다. 2014년 이안 구펠에 의해 소개된 GAN은 생성자와 판별자 간의 경쟁을 통해 발전하는 구조입니다.

GAN의 원리를 간단히 설명하면, 생성자는 위조 지회를 만들고, 판별자는 이 위조 지회와 실제 지회를 구별하려 합니다. 이 과정이 반복되면서 생성자는 점점 더 진짜 같은 이미지를 생성하게 됩니다. 이는 이미지 생성에 적용되어 실제 이미지와 유사한 가짜 이미지를 만들어낼 수 있게 됩니다.

GAN 구조 설명 이미지

이 기술은 이미지뿐만 아니라 오디오에도 적용될 수 있어, 가짜 인터뷰 영상을 제작하는 데 악용되기도 했습니다. 이후 2017년에는 트랜스포머 기반 모델이 소개되면서 이미지 생성 기술이 또 한 번 도약하게 됩니다.

트랜스포머의 역할

트랜스포머는 구글에서 발표한 "Attention is All You Need" 논문에서 처음 소개된 어텐션 메커니즘을 기반으로 하는 딥러닝 모델입니다. 트랜스포머 모델은 순차 데이터 내의 관계를 추적하여 맥락과 의미를 학습합니다. 문장을 읽을 때 각 단어의 관계를 파악하는 것처럼, 트랜스포머 모델은 데이터의 다양한 위치 간 관계를 학습합니다.

트랜스포머가 이미지를 생성하는 과정에서는 커다란 그림을 작은 조각들로 나누고, 그 조각들 간의 관계를 학습합니다. 이러한 조각들을 '패치'라고 하며, 이미지 생성 시 학습된 데이터를 바탕으로 패치를 생성하고, 패치 간의 관계성을 계산하여 이미지를 만듭니다.

트랜스포머 이미지 생성 과정 설명 이미지

디퓨전 모델의 혁신

2020년에는 디퓨전 모델이 등장하여 이미지 생성에 또 한 번의 혁신을 가져왔습니다. 디퓨전 모델은 물리학의 확산 개념을 기반으로 하며, 원본 이미지에 점진적으로 노이즈를 추가하여 이미지를 파괴한 후, 다시 노이즈를 제거하는 과정을 반복합니다.

이 과정에서 각 단계에서 노이즈를 얼마나 정확히 예측하는지 평가하여 이미지 생성의 정확도를 높입니다. 디퓨전 모델은 노이즈 추가와 제거 과정을 통해 이미지 생성의 품질을 향상시키는데 기여합니다. 그러나 대표적인 단점으로는 단계별 연산이 많아 이미지 생성 속도가 느리다는 점이 있습니다.

디퓨전 모델 과정 설명 이미지

영상 생성 기술

그렇다면 영상은 어떻게 만들어질까요? 오픈 AI의 SORA를 예로 들면, SORA는 트랜스포머 모델을 활용하여 텍스트 프롬프트를 분석하고, 주제, 행동, 장소, 시간, 분위기 등의 키워드를 추출합니다. 이후, 기존에 보유한 동영상 데이터에서 가장 적합한 동영상 패치를 찾아내고, 패치 간의 관계성을 계산하여 영상을 생성합니다.

초기에 생성되는 영상은 흐릿하고 노이즈가 많은데, 디퓨전 모델을 통해 고품질의 영상을 만들어야 합니다. 이러한 과정을 통해 영상 생성 기술도 발전하고 있습니다.

인공지능의 한계와 우려

하지만 인공지능으로 생성된 이미지가 항상 만족스럽지는 않습니다. 특히 손을 그리는 데 어려움을 겪는 경우가 많습니다. 손은 매우 세밀한 구조를 가지지만, 이미지에서 차지하는 비중이 낮기 때문에 인공지능이 정확하게 묘사하기 어렵습니다.

인공지능은 다량의 이미지를 관측하고, 인간의 모습에 해당하는 텍스트 키워드와 연결된 패턴을 학습합니다. 그러나 손과 같은 세부 요소는 충분한 데이터를 갖지 못해 정확하게 표현되지 않는 경우가 많습니다. 이로 인해 결과물이 이상하게 나타날 수 있습니다.

손의 구조 설명 이미지

합스부르크 AI와 인공지능의 미래

인공지능의 발전과 함께 '합스부르크 AI'라는 개념이 등장하였습니다. 이는 특정 데이터에 대한 학습이 지속되면 유전적 다양성이 떨어져 잘못된 정보를 생성할 가능성이 높아지는 현상을 의미합니다. 최근의 인공지능은 인간이 만든 이미지 뿐만 아니라, 인공지능이 생성한 이미지까지 학습하고 있습니다.

이러한 현상이 지속되면, 잘못된 이미지가 데이터에서 차지하는 비중이 커지면서, 인공지능이 잘못된 정보를 학습할 가능성이 높아집니다. 따라서, 이러한 문제를 인식하고 해결하기 위한 연구가 필요합니다.

결론

이번 블로그에서는 인공지능이 이미지를 및 영상을 생성하는 원리에 대해 알아보았습니다. 딥러닝, CNN, GAN, 트랜스포머, 디퓨전 모델 등 다양한 기술들이 어떻게 활용되는지 살펴보았으며, 앞으로 인공지능이 예술과 문화의 새로운 동반자가 될 가능성에 대해서도 논의하였습니다.

인공지능이 발전함에 따라, 인간의 지능도 함께 발전해야 서로에게 도움이 될 것입니다. 인공지능의 이미지와 영상 생성 기술에 대한 이해가 여러분에게 도움이 되었기를 바랍니다.

반응형

댓글