몇 년전부터 ChatGPT, Bard, Claude, Midjourney, Runway, Soundraw, 브루, 캡컷, CLOVA X 등등 다양한 AI서비스가 발표되고 활용되고 있습니다. 또한, 앞으로도 더 많은 종류의 서비스가 발표될 것으로 예상됩니다.
우리 입장에서는 잘 활용하여 생산성을 높이고 오랜 시간이 소요되었던 다양한 작업들을 효율적으로 작업할 수 있으면 됩니다.
이를 위해서, 어떤 종류가 있고 어떻게 분류되는지 이해하는 시간을 갖고 앞으로 활용 범위를 활대하길 기대해봅니다.
최근 다양한 AI서비스를 활용하고 있는데, 통합적으로 '생성형AI‘ 라고 부른다~!
ChatGPT, Bard, Claude, Midjourney, Runway, Soundraw, 브루, 캡컷, CLOVA X 등등 다양한 AI서비스가 있는데, 이런 서비스를 '생성형 AI‘라고 부릅니다.
생성형 AI(Generative AI)는 기존 데이터를 학습하여 텍스트, 이미지, 음악, 비디오 등 다양한 유형의 콘텐츠를 자동으로 생성하는 인공지능 기술입니다. 최근에는 텍스트뿐 아니라 이미지를 자유롭게 편집하거나 동영상을 생성하고, 소리와 3D 모델까지 생성할 수 있는 다양한 도구가 등장하며 콘텐츠 창작에 폭넓게 활용되고 있습니다. 사용자는 간단한 지시문(prompt)을 통해 창의적이고 새로운 콘텐츠를 만들어낼 수 있어, 생성형 AI는 특히 크리에이터와 비즈니스 업계에서 혁신적인 도구로 자리 잡고 있는 추세입니다.
생성형 AI 분류 : (1) 콘텐츠 유형에 따른 분류
사용자 입장에서 이해하기 쉬운 분류방법입니다.
어떤 것을 생성하는지에 따른 분류로써 사용자가 생성하고자 하는 것이 있다면 아래 분류에서 찾아서 사용해보시길 바랍니다.
- 텍스트 생성 AI:
- 자연스러운 대화, 글 작성, 번역, 요약 등의 작업을 수행하는 AI입니다.
- ChatGPT나 Google의 Bard, Claude(Anthropic), Pi(Inflection) 같은 다양한 모델이 텍스트 생성에서 활약하고 있습니다.
- 이미지 생성 AI:
- 입력된 설명을 바탕으로 이미지를 생성하는 AI
- 대표적으로 DALL-E, Midjourney, Stable Diffusion 등
- 최근 Adobe의 Firefly는 사용자가 직접 고품질 이미지를 편집 및 생성할 수 있도록 하며, 상업적 사용도 지원
- 오디오 생성 AI:
- 텍스트 입력만으로도 음악, 음성, 사운드를 생성하는 AI로, Soundraw와 Mubert가 대표적
- Voice.ai, Eleven Labs는 음성 모방 기능을 통해 다양한 목소리를 생성하고, 즉시 사용할 수 있음
- 비디오 생성 AI:
- 간단한 텍스트로부터 비디오 콘텐츠를 생성하는 AI로, 최근 Runway와 같은 서비스가 주목
- Meta의 Make-a-Video도 텍스트를 기반으로 짧은 비디오를 생성하는 연구 모델을 선보임
- 3D 모델 생성 AI:
- NVIDIA의 GET3D, Point-E 등이 3D 모델을 생성하는 데 활용
- 게임 및 애니메이션, 디자인 분야에서 주로 사용
생성형 AI 분류 : (2) AI모델구조에 따른 분류
생성형 AI 기능을 수행하기 위해서 서비스별로 사용하는 모델/알고리즘입니다.
일반 사용자 입장에서는 이 내용까지 이해할 필요는 없을 것 같지만 이런 것도 있다 정도로만 보시면 될 것 같습니다.
- GAN(생성적 적대 신경망):
- 두 신경망(생성자와 판별자)이 서로 경쟁하면서 더 정교한 이미지를 생성하도록 설계된 구조
- StyleGAN(이미지 생성), BigGAN(대용량 데이터 기반 생성) 등 다양한 GAN 기반 모델이 연구되고 있음
- 트랜스포머 기반 모델:
- 대규모 언어 모델로서 자연어 처리에 강점을 가지며, ChatGPT, BERT, T5 등이 이 방식을 사용
- OpenAI의 최신 GPT-4 모델과 Claude 등도 모두 트랜스포머 구조를 바탕으로 만들어졌습니다.
- 변형 자동 인코더(VAE):
- 데이터의 특징을 학습하고 새로운 데이터를 생성하는 데 유용한 구조
- 특히 텍스트와 이미지 변환 작업에서 활용
생성형 AI의 콘텐츠 유형별 서비스(사용자가 직접 사용 가능함)
사용자가 직접 사용해볼 수 있는 서비스 종류를 알아보겠습니다.
실제로 사용자가 사이트에 접속해서 사용해볼수 있습니다.
1) 텍스트 생성 AI
- ChatGPT (OpenAI): 대화형 AI로 다양한 질문에 대한 대답, 글쓰기, 코딩, 요약 등을 수행합니다. 최근 GPT-4 버전은 이미지와 텍스트를 동시에 이해하고, 브라우저 플러그인을 통해 실시간 정보 검색이 가능합니다.
- Bard (Google): 텍스트 기반의 생성형 AI로, 구글의 최신 검색 엔진과 연동하여 정보를 제공하고, 문서 요약, 스프레드시트 작성까지 돕습니다.
- Claude (Anthropic): AI 안전을 중시하여 설계된 언어 모델로, 사용자와의 대화를 이해하고 분석하는 데 중점을 둡니다.
- Pi (Inflection): 감정에 초점을 맞춘 대화형 AI로, 따뜻하고 인간적인 대화를 통해 사용자에게 심리적 지원을 제공할 수 있는 모델입니다.
▶ ChatGPT(로그인후 화면)

▶ 뤼튼

2) 이미지 생성 AI
- DALL-E (OpenAI): 텍스트에서 이미지를 생성하고, 최근에는 이미지의 특정 부분을 자유롭게 편집할 수 있는 기능을 제공합니다.
- Midjourney: 예술적이고 감각적인 이미지 생성을 목적으로 하며, 많은 디지털 아티스트들이 사용합니다. 최신 V5 모델에서는 높은 해상도와 세밀한 스타일을 지원합니다.
- Adobe Firefly: 텍스트 기반의 이미지 생성 및 편집을 지원하며, 상업적 사용에 적합하도록 제작되었습니다.
- Stable Diffusion (Stability AI): 오픈소스 이미지 생성 모델로, 이미지 합성, 스타일 변환 등에 주로 사용됩니다.
▶ Midjourney

▶ Stable Diffusion(Web버전)

3) 오디오 및 음악 생성 AI
- Soundraw: 텍스트 기반으로 다양한 분위기의 음악을 생성할 수 있어 영상 제작자들이 주로 활용합니다.
- Mubert: 음악과 오디오를 생성하며, 특정 장르와 무드를 설정할 수 있습니다. 실시간 스트리밍을 통해 배경 음악을 제공할 수 있습니다.
- Voice.ai, Eleven Labs: 음성을 모방하고, 다양한 목소리로 변형하는 데 유용합니다. 특히 Eleven Labs는 다양한 감정을 반영한 음성 생성에 강점을 가지고 있습니다.
▶ Soundraw

4) 비디오 생성 AI
- Runway: 텍스트에서 비디오를 생성하거나 짧은 클립을 편집하는 데 적합하며, 최근 Gen-2 모델은 고화질 비디오 생성과 편집을 지원합니다.
- Synthesia: 대화형 AI 비디오를 생성할 수 있으며, 기업의 홍보 영상, 교육 콘텐츠 제작에 자주 사용됩니다.
- Meta의 Make-a-Video: 텍스트를 기반으로 짧은 비디오 클립을 자동 생성하며, 연구 단계지만 흥미로운 가능성을 보여줍니다.
▶ Runway

5) 3D 모델 생성 AI
- GET3D (NVIDIA): 고해상도의 3D 모델을 생성하여 게임과 디자인, 애니메이션 등에 활용할 수 있습니다.
- Point-E (OpenAI): 텍스트에서 간단한 3D 포인트 클라우드 모델을 생성하여, 빠르게 시각화 작업에 활용할 수 있는 모델입니다.
요약정리
생성형 AI는 텍스트, 이미지, 오디오, 비디오, 3D 모델 등 다양한 콘텐츠를 자동으로 생성하는 기술로, OpenAI의 GPT-4, Google의 Bard, Adobe Firefly, NVIDIA GET3D 등 최신 모델들이 속속 등장하며 각각의 분야에 특화된 기능을 제공합니다. 각기 다른 모델 구조와 생성 유형으로 창의적인 작업을 지원하는 생성형 AI는 앞으로 다양한 산업 분야에서 더욱 넓은 가능성을 열어갈 것입니다.






