본문 바로가기

IT

Bing Image Creator(이미지 생성 AI)

반응형

Microsoft에서 인공지능 기반 이미지 생성기인 Bing image creator를 출시했다. 이미지 생성기는 텍스트 프롬프트를 기반으로 이미지를 생성하는 AI 도구인 Open AI의 DALL-E2를 기반으로 한다. DALL-E2는 텍스트 입력에서 이미지를 생성하는 딥 러닝 알고리즘을 사용하는 AI system이다. 

 

DALL-E2의 작동 원리

DALL-E2의 텍스트 입력을 받아서 이를 벡터로 변환한다. 벡터란 숫자의 배열로, 텍스트의 의미와 구조를 표현한다. DALL-E2의 변환된 벡터를 디코더라는 모델에 입력하면 디코더는 벡터를 이미지로 복원하는 역할을 한다. 디코더는 벡터에 해당하는 이미지를 생성하고 이를 출력한다. 따라서, 텍스트 입력에 있는 다양한 개념, 속성, 스타일을 조합하거나 변형하여 새로운 이미지를 만들 수 있다. 

 

DALL-E2가 만들 수 없는 Image

DALL-E2는 텍스트 입력에 있는 정보가 모호하거나 모순적인 경우 정확한 이미지를 생성하지 못한다. 예를 들면, "까만색의 하얀색 고양이를 그려주세요."처럼 상반된 입력값을 요구할 때나, "세상에서 가장 작은 코끼리"와 같은 추상적인 개념의 입력값에 대한 이미지 생성이 어렵다.

DALL-E2가 이해하기 어려운 내용 즉, 텍스트 입력에 있는 정보가 너무 복잡하거나 추상적인 경우에 적절한 이미지를 생성하지 못한다. 또한, "피타고라스의 정리를 증명하는 방법"이나 "인간의 정신과 물질의 관계"와 같은 표현하기 힘든 입력값에 대한 이미지 역시 생성이 어렵다. 

DALL-E2는 텍스트 입력에 있는 정보가 특정한 문화나 지식에 의존할 경우 올바른 이미지를 생성하지 못할 수 있다. 예를 들면, "한국의 전통의상인 한복을 입은 사람을 그려주세요."라고 입력했을 경우, 우리가 알고 있는 한복의 이미지와는 다른 그림이 생성될 수 있다. 이는 DALL-E2가 학습한 데이터셋의 이미지 생성의 목적이나 조건에 따라 달라질 수 있으므로 이로 인한 오차가 발생할 수 있다.

 

DALL-E2와 비슷한 다른 AI system

(1) Nightcafe: 텍스트 입력을 이미지로 변환하는 가장 간단한 무료 AI program이다. 텍스트를 입력하면 랜덤한 스타일의 이미지를 생성한다.

(2) Starry AI: 텍스트 입력을 이미지로 변환하는 무료 AI program이다. 텍스트를 입력하며 스타일, 색상, 밝기 등을 조절할 수 있는 이미지를 생성한다. 

(3) Craiyon: Open AI의 EALL-E와 비슷한 기능을 제공하는 무료 AI program이다. 텍스트를 입력하면 다양한 개념과 속성을 조합한 이미지를 생성한다. 

(4) DeepAI Text To Image: 텍스트 입력을 이미지로 변환하는 API 서비스이다. 텍스트를 입력하면 고유한 이미지를 생성한다. AI 아트나 재미있는 이미지를 만들 수 있다.

(5) Canva AI Image Generator: 텍스트 입력을 이미지로 변환하는 온라인 앱이다. 텍스트를 입력하면 사진, 그림, 패턴 등의 스타일을 선택할 수 있는 이미지를 생성한다. 

(6) Shutterstock AI Image Generator: 텍스트 입력을 이미지로 변환하는 서비스이다. 텍스트를 입력하면 Shutterstock의 대형 이미지 라이브러리에서 적절한 이미지를 생성한다. 

 

Bing image creator 사용 방법

현재 Bing image creator는 한국어 입력을 지원하지 않는다. 영어로 입력값을 넣어야 하는데 번역기를 적절히 사용하면 된다. 우선 https://bing.com/create 에 접속한다. 그리고 원하는 이미지에 대한 설명을 입력한다. 텍스트를 입력하면 Bing image creator는 AI가 생성한 여러 가지 이미지를 보여준다(대체로 4개의 이미지가 생성되는데 입력값이 단순하면 이미지가 2개 정도만 나온다). 아래 그림은 Bing image creator에서 직접 생성한 이미지이다(우울증에 관한 글에 필요한 이미지를 생성하였다). 

Bing image creator로 생성한 그림

 

이미지를 처음 생성한 후에 수정하려면 다음과 같은 단계를 따라가면 된다.

-. 생성된 이미지 중에서 수정하고 싶은 이미지를 클릭한다.

-. 이미지 아래의 텍스트 박스에서 설명이나 스타일을 변경한다.

-. 변경 버튼을 누르면 새로운 이미지가 생성된다.

 

Bing image creator의 장점은 다양하다. 창의적인 이미지를 쉽게 만들 수 있으며, 단어로만 표현하기 어려운 아이디어나 상상력을 시각화할 수 있다. 또한, 저작권 문제에 걱정할 필요가 없다. AI가 생성한 이미지는 모두 공개 도메인이므로 자유롭게 사용할 수 있다. 참고로, Microsoft Rewards 프로그램에 참여하면 포인트를 적립해 주는데, 기프트 카드나 기부 등으로 활용할 수 있다고 하니 관심을 가져볼 만하다. 

 

단점은 아직 개선할 여지가 있는 점이 있는데, AI가 생성한 이미지의 품질이 일정하지 않다. 때로는 현실적이고 섬세한 이미지가 나오기도 하지만 때때로 비현실적이고 흐릿한 이미지가 나오기도 한다. 또한, 부자연스러운 이미지가 나오는데 예를 들면, 누워있는 모습인데 얼굴이 천장을 보고 있는, 마치 호러영화에서나 나올 법한 이미지가 생성되기도 한다. 그리고, 생성한 이미지의 의미와 의도가 항상 명확하지 않다. 단어의 의미와 맥락에 따라 다른 해석이 가능하기 때문에 AI가 원하는 바와 사람이 원하는 이미지가 다른 수 있다. 마지막으로 AI가 생성한 이미지의 윤리성과 안정성에 대해 주의해야 한다. 부적절하거나 유해한 단어를 사용하여 문장을 입력하면 부적절하거나 유해한 이미지가 나올 수 있으므로 사용자의 책임과 판단력이 필요하다.

 

(Tip) Bing image creator에는 텍스트 입력 부스터가 있다. 텍스트 입력 부스터는 텍스트를 입력할 때 AI가 자동으로 추천하는 단어나 문장이 자동으로 입력되어 그림이 생성된다. 텍스트 입력을 보완하고 개선하는 목적으로 부스터를 사용하지만 없이도 그림은 생성된다. 다만, 시간이 좀 많이 걸릴 수 있다.

 

현재 발표된 AI 기반 서비스는 텍스트를 사용하고 있다. 향후 텍스트 기반 서비스의 오차율이 거의 없어진다면 좀 더 많은 재미와 유익을 선사할 것으로 생각된다. 또한 음성 인식과 합성 기술이 발전한다면 사용자는 음성으로 직접 대화하거나 이미지를 요청할 수 있을 것이다. 생성된 콘텐츠나 이미지에도 음성을 부여하여 보다 생동감 있게 만들 수 있을 것으로 생각되며 이러한 연구는 지금도 계속되고 있다. 또한, 이미지 생성의 보다 발전된 모델로는 비디오 생성 기술로 입력한 텍스트나 음성에 따라 비디오를 생성할 수 있다는 것이다. 쏟아져 나오는 새로운 기술과 편익성은 즐거운 일이며 앞으로의 기대가 더욱 커지고 있다. 

반응형