본문 바로가기
IT

생성형 이미지 AI 모델의 발전

by Kalsen Lim 2024. 8. 7.

1. Overview

비주얼 부문에서 다양한 AI 서비스들이 우후죽순 생겨나고 있다. 이 중에 실제 몇가지를 활용해보고, 실무에 이용할만한 모델들을 리스트업 해보고자 이 문서를 제작하기 시작했다.

현재는 각 서비스별로 분산되어 있는 다양한 기능들이 추후에는 한가지의 통합된 솔루션으로 제공될 것이라고 판단한다. (아마도 Open AI나 어도비가?) 때문에 그래픽 분야에서 AI 기술의 발전을 면밀하게 트래킹하는 노력이 필요하고,
이를 잘 활용하여 생산성 및 퀄리티를 향상시키는 역량이 계속 요구될 것으로 보고 있다. 

AI 기술의 발전이 너무 빠르게 변화하고 있어, 아래 나열된 서비스들 몇개월 단위로 큰 업데이트가 예상된다. 해당 문서 역시 불과 몇개월 후에는 Outdated 될 것이 분명하기 때문에, 업데이트 시점을 잘 표시하는게 좋겠다.


2. AI 의 발전

2-1. Chat GPT

대규모 언어 모델 (Large Language Model - LLM)의 대표주자이자 오늘날 AI 페러다임을 완전히 바꿔버린 Chat GPT를 빼 놓고 관련된 이야기를 하기 힘들다.

Open AI는 2018년 Chat GPT 2를 출시했다. GPT2는 미취학 아동수준의 지능 수준이었으나, 당시 학계에서는 매우 인상적인 결과라는 평가를 내렸다.
문장에서 대명사 'It' 이 의미하는 바를 정확하게 추론해 내는 등 그 전까지의 AI들과 확연한 성능차기가 있었던 것이다. 
하지만 이때가지만 해도 대중들에게 AI는 실제 삶에 있어서의 효용과는 거리가 있었다.


2022년 11월 Chat GPT 3.5가 출시되었고, 이때부터 커뮤니티를 비롯, 대중들에게 LLM 모델 AI의 충격적인 퍼포먼스가 머릿속에 각인되기 시작했다.
마치 사람과 같이 대화를 주고받는 GPT 3.5를 보며 많은 대중들은 영화 'Her'를 떠올렸고, 한참 후의 미래일 거라고 생각했던 일들이 어느순간 눈앞에 바짝 다가와 있다는 것을 깨달았다.
Chat GPT는 2달만에 10억 유저를 모아 역사의 한획을 긋기까지 했다.


하지만 진짜는 지금부터였다. 2023년 초 Chat GPT 4가 출시되고, 현재 2024년 5월 GPT 4o 가 공개된 상태서 부터 세상은 온통 Chat GPT를 어떻게 활용할 수 있을지에 대한 상상으로 뜨겁다.
GPT 4o는 자연어 기반의 언어모델 뿐만아니라, 카메라를 통해 이미지를 해석하고 현재 감정 상황에 맞는 노래까지 불러준다. 또한 0.23초 안에 오디오 입력에 응답할 수 있으며, 이는 평균 0.32초인 인간의 응답 시간을 상회하는 반응 속도이다.
애플은 최근에 아이폰에 탑재된 시리를 Chat GPT와 연동한다고 발표하였다. 

더 놀라운 사실은, 이러한 기술 발전의 속도가 2028년까지 계속 될 것으로 보인다는 것이다.
이는 빠르게 발전하는 컴퓨팅 성능 덕분이다. 현재 주가가 급등하는 엔비디아의 그래픽 카드 성능을 보면 8년동안 1000배의 AI 컴퓨팅 성능의 상승을 주도했다. (주식 많이 사둘걸...)

또한 AI 알고리즘의 효율성이 즉 가성비가 매우 좋아지고 있고, 수동적인 AI가 아닌 스스로 능동적 판단을 하는 수준까지 다다르게 되기 때문에
앞으로 AI의 발전은 더욱 가속화 될 것으로 보인다.

 

출처 : https://www.youtube.com/watch?v=6RHPUR2pknA&t=431s

 


3. 생성형 이미지 AI

3-2. Midjourney

https://www.midjourney.com

3-2-1. 미드저니의 발전

생성형 AI는 엄밀히 말하면 대규모 언어 모델인 Chat-GPT와는 다른 형식의 모델로 볼 수 있다.
미드저니는 텍스트를 입력하면 AI가 이미지를 생성해주는(Text-to-Image) 모델로, 스테이블 디퓨전과 함께 현시점 가장 유명하면서 생성되는 이미지의 퀄리티가 높은 AI 이미지 제너레이터다.

미드저니 역시 놀라운 속도로 그 퀄리티가 향상되고 있다. 아래 이미지는 같은 프롬프트를 각각 미드저니 V1~6 버전으로 도출해낸 결과물인데, V3까지는 아이가 그림판으로 그린듯한 결과물이다.
하지만 V6에 와서는 사진과 구분하기 힘들 정도의 퀄리티를 보여준다.

 

Prompt
Epic scene, art shows a woman figure with a cloth draped over their head and a white mask with dark, hollow eyes and red markings. The background suggests an urban setting, perhaps an underground passage, with dim lighting.
The figure is dressed in a Nike jacket, adding a modern, streetwear element to the eerie, almost apocalyptic feel, Urban Art, Dark art, by Shepard Fairey and Katsuhiro Otomo, movie poster, extremely detailed, hyper resolution, cinematic volumetric lighting,

 

V1
V2
V3
V4
V5
V6
 

 

생성형 이미지 AI 중 가장 보편적이고 빠르게 발전하고 있는 미드저니는 현재 (202407월 기준) V6 버전을 웹 기반의 알파 버전에서도 제공하고 있다.
앞서 보았듯, V6 기준에서는 비약적인 이미지 퀄리티 향상이 이루어졌으며, 바리에이션 기능 뿐만아니라 업스케일링을 8K 해상도까지 지원하고 있다.
앞으로 지속적인 발전이 예상되는 모델이고, 향후 V7~8 까지만 버전업이 이루어지더라도 실제 사진이나 3D 모델링 수준의 퀄리티를 보여줄 것으로 기대하고 있다.

3-2-2. 윤리적 문제

미드저니를 통해 생성한 '스페이스 오페라 극장'은 콜로라도 주립박람회 미술대회 디지털 아트 부문 1등을 차지했다. 
심사위원들은 아무도 이 작품이 AI를 사용하여 제작한 것이라고 생각하지 못했고, 이 사실이 밝혀지고 전세계가 충격을 받았다.

이를 기점으로 AI가 가장 침범하기 힘들 것이라고 예상했던 예술의 영역이 가장 빠르게 대체 될 수 있다라는 불안감과
안그래도 역사적으로 갑론을박이 많았던 예술의 정의에, AI가 생성한 이러한 이미지들까지 한 범주로 인정해야 하는가에 대한 근원적인 질문들이 생겨났다.

한편으로, 이 '스페이스 오페라 극장' 이라는 이미지는 앞으로도 미술사에 계속 회자될 것이 분명하며, 이미 역사적인 한 획을 그은 것 아닌가 개인적으로는 생각해 본다. 

 

이처럼 미드저니는 인간이 만들어낸 디지털화 되어 있는 수많은 이미지들을 닥치는대로 학습했다.
따라서 근원적인 윤리적 문제는 차치하더라도, 기존의 많은 저작권에 대한 법률을 침해하며, 앞으로도 많은 문제를 야기할 것으로 보인다.
또한 이러한 이유로 미드저니를 이용하여 제작한 결과물 역시 저작권에 대한 보호를 받기는 힘들어 보인다.

아래 이미지는 비주얼 아티스트 Reid Southen 이 상업영화와 관련된 간단한 프롬프트을 이용하여 표절 결과물을 도출해보는 테스트를 진행한 예이다.
원작의 이미지를 거의 완벽하게 구현해 냈으며, 디테일한 부분까지 4K이미지로 뽑아낸 것을 확인할 수 있다.
해당 아티스트는 미드저니가 상업영화의 원본 시퀀스들 역시 무단으로 학습했을 것으로 보고 있다.

 

출처 : https://spectrum.ieee.org/midjourney-copyright

 

3-2. Adobe Firefly

https://firefly.adobe.com/

어도비 파이어 플라이는 현재 EA에서 협약을 맺어 공식적으로 활용할 수 있는 생성형 AI 서비스이다.
자체 이미지 스톡을 통해 레퍼런스를 학습하므로 비교적 라이센스 이슈에서 자유롭고, Text to Image 뿐만 아니라 생성형 확장, 채우기, SVG 생성 및 오디오 및 비디오 생성등
어도비 포토샵, 프리미어 프로, 에프터 이펙트 등의 자사 툴들에 AI 모델을 융합시키기 위한 꾸준한 시도를 하고 있다.

3-2-1. 미드저니와의 비교

아직 어도비 파이어 플라이의 생성형 이미지 퀄리티는 미드저니에 못미치는 수준이지만,
미드저니가 그들이 학습한 이미지 출처에 대한 어떠한 정보도 제공하지 않고, 유명 작가들의 작품 스타일을 무분별하게 학습하는 윤리적인 문제, 향후 라이센스와 관련된 문제등을 생각하면 리소스를 제작함에 있어서 훨씬 적합해 보인다.

 

Prompt :
Heung-min Son of Tottenham standing on a grand stage with a soccer ball under his arm, looking straight ahead in a dark studio, relax pose, photography, portrait shot 
Firefly
Midjourney
손흥민이라는 인물 자체를 알지 못하는 느낌. 어린 남자아이들이 공을 들고 있는 사진이 주로 도출되며, 토트넘의 크레스트나 아디다스 나이키 등의 브랜드 아이덴티티도 노출 하지 않음.이미지 스톡의 그 느낌이 물씬. 손흥민이라는 인물을 인식하고 있으나, 동양인의 비슷한 실루엣을 가진 인물만 도출. 아마도 알고리즘이 실제 유명 인물의 초상권 침해를 방지하기 위해 의도적으로 다른 얼굴을 보여주는 듯e도 하다.
전반적인 무드가 굉장히 잘 연출되어 도출되나, 공을 들고있는 팔의 구조가 이상한 점들이 눈에 띔.
토트넘, 아디다스, 나이키 등의 브랜드 아이덴티티들을 라이센스에 상관없이 가감없이 노출.

 

Prompt :
A flashy and modern abstract structure made of aluminum metal, white background, keyshot rendering
Firefly
Midjourney
좀더 직선적인 느낌의 구조물이 도출됨. 머터리얼의 물성을 표현함에 있어서는 미드저니와 큰 차이가 느껴지지 않음. 더 추상적이고 현대적인 느낌의 구조물이 도출됨.
유명 건축가의 작품같은 느낌.

 

Prompt :
A giant white dog is walking over the city.
Firefly
Midjourney
왠지 모를 이집트 느낌이 나는 거대강아지 이미지가 도출됨. 좀 더 리얼리스틱한 느낌으로 프롬프트를 추가하였지만 특유의 일러스트 느낌이 지워지지 않음.
더욱 사실적이고 자연스러운 이미지 도출. 강아지의 털들이 바람에 자유분방하게 날리는 디테일까지 구현해냄. 

3-3. Stable Diffusion

https://stability.ai/stable-image

스테이블 디퓨전은 뮌핸 대학 Machine Vision & Learning Group 연구실에서 개발한 오픈소스 모델이다.
현재 시중에 공개된 생성형 이미지 AI 중에 가장 심층적인 커스터마이징 기능을 제공하고, 많은 세부 인터페이스를 제공하여 같은 프롬프트에서도 더 세부적인 값들을 사용자가 커스터마이징 하여 이미지를 생성 할 수 있다.
또한 인물형 이미지 생성에 가장 특화되어 있는 AI이다. 다만 초기 세팅이 어렵고 프로그래밍 지식이 필요하여 진입장벽이 높은 편이다.

출처 : https://fastcampus.co.kr/

3-4. DALL-E

Chat GPT를 제작한 Open AI에서 개발하였다. 2023년 10월 DALL-E 3가 출시 되어 큰 성능 향상을 보였다.
달리는 Chat GPT4, Microsoft Copilot, 빙 이미지 크리에이터에서 무료로 사용이 가능하다.
또한 공식 홈페이지에서 모든 생성물의 권한은 생성자에게 있으며 상품화에 대한 허락을 구하지 않아도 된다고 명시되어 있다. (진짜인지는...)

이미지 생성 AI 3대장이라고 불리우는 Midjourney, Stable Diffusion, Dall-E 이 세가지의 모델 중에서는
달리의 결과물 퀄리티가 다소 부족하다는 생각이다. 채도나 색의 표현이 너무 과장되어 있고, 인물의 모습이 거의 비슷한 느낌을 가지고 있다.
다만 Open AI에서 제작한 모델이므로 프롬프트에 대한 이해도는 상당히 높다는 인상이다.

 

Prompt :
A beautiful Korean Woman wearing a hanbok and making V sign in front of Gyeongbokgung Palace

3-5. Lore Machine

https://www.loremachine.world/

2024년 공개된 따끈따끈한 AI 모델이다.
스토리를 입력하면 이를 비주얼라이제이션 해주는 독특하고 뾰족한 기능을 가지고 있는 모델인데, 80~90년대 레트로 셀애니메이션의 일러스트나 영화 느낌의 이미지들을 도출해준다.

먼저 내가 작성한 스토리를 입력하고 원하는 비주얼 스타일을 고르면, 그에 맞는 주인공 캐릭터를 선택하고 커스터마이징 할 수 있는데,
이를 바탕으로 주요 시퀀스 마다의 장면과 주변인물들, 배경까지 생성해준다.

최근 이 모델을 이용하여 숏폼 컨텐츠를 제작하는 크리에이터들을 종종 마주치고 있고,
홈페이지도 굉장히 트랜디하여 앞으로가 기대되는 서비스이다.  

출처 : https://fastcampus.co.kr/