Diffusion model

Galaxy AI generative Image Edit and Imagen

sw.kim 2025. 1. 14. 22:05

우선 galaxy AI에서 이미지 생성형 모델이 사용되는 부분은

1. 날씨 및 시간 배경화면(Photo ambient wallpaper)

2. 생성형 배경화면(Generative wallpaper)

3. 인스턴트 슬로모(Instant Slow-Mo)

4. 생성형 편집(Generative Edit)

정도가 있다.

 

이 중 1, 2는 배경화면 이미지를 생성해주는데, 1은 사용자가 위치한 지역의 날씨 및 시간을 반영하여 배경화면에 날씨 효과를 추가해준다.

원래 이미지와 날씨, 시간이 condition으로 모델에 들어갈것으로 추정되며 Samsung Vision Core를 사용

2는 흔히 생성형 모델하면 생각하는 정석적인 모델이다. 사용자가 원하는 단어를 조합해서 배경화면을 만들어주는데, 선택 가능한 단어가 제한되어 있다. 아마 간혹 발생할 수 있는 윤리적인 문제를 예방하기 위해서일 것을 추측된다. 모델은 알려지지 않았지만 Samsung Vision Core일 것 같다.

3은 재생중인 화면을 길게 누르면 그 즉시 1/4배로 슬로우 모션으로 재생되는데, 이 때 실시간으로 프레임 보간을 해준다. Samsung Vision Core와 ProVisual Engine이 사용된다.

4는 사진에서 특정 사물을 선택해 이동, 크기 조절 등의 편집을 할 수 있으며 이 때 여백을 채우며 이미지를 자연스럽게 해준다. ProVisual Engine이 사용된다.

 

 

이 ProVisual Engine에 대해서 삼성전자 뉴스룸에서는

갤럭시 S24 시리즈에 새롭게 탑재된 프로비주얼 엔진은 촬영, 캡처, 편집 등 모든 카메라 기능을 고도화하는 AI 기반 엔진으로 ‘AI 줌’, ‘나이토그래피(Nightography)’, ‘편집 제안(Edit Suggestion)’, ‘생성형 편집(Generative Edit)’, ‘인스턴트 슬로모(Instant Slow-mo)’, ‘Super HDR(Super High Dynamic Range)’을 포함한다.
최근 큰 주목을 받고 있는 갤럭시 S24 시리즈에 적용된 AI 모델과 신경처리장치(NPU, Neural Processing Unit), 대량 데이터셋과 같은 비주얼 AI는 갤럭시 S10 시리즈에 최초 도입된 이래로 꾸준히 발전하며 사용자의 크리에이티브 경험을 한층 더 향상시켰다. 그리고 이번 갤럭시 S24 시리즈는 갤럭시 S10 시리즈 대비, 28배 늘어난 112개의 AI 모델과 13배 향상된 NPU 성능을 적용한 강력한 프로비주얼 엔진으로 전에 없던 지능형 카메라 경험을 완성했다.

https://news.samsung.com/kr/%eb%a9%80%eb%a6%ac%ec%84%9c-%ec%b0%8d%ec%9d%80-%ec%82%ac%ec%a7%84%eb%8f%84-ai%eb%a1%9c-%ec%84%a0%eb%aa%85%ed%95%98%ea%b2%8c-%ea%b0%a4%eb%9f%ad%ec%8b%9c-s24-%ec%8b%9c%eb%a6%ac

 

‘멀리서 찍은 사진도 AI로 선명하게’, 갤럭시 S24 시리즈의 새로운 카메라 혁신, 프로비주얼 엔

멀리 떨어진 피사체를 완벽하게 촬영 하기란 쉽지 않다. 손 떨림, 좁은 시야, 어두운 조도 등 신경 써야 할 요소들이 많기 때문이다. 하지만 갤럭시 S24 시리즈와 함께라면 이런 고민은 줄어든다.

news.samsung.com

라고 밝히고 있다.

 

 

위의 뉴스에서는 AI model의 구체적인 정보 확인할 수 없지만, 구글 클라우드 뉴스룸을 보면 아래와 같이 imagen 2 모델을 사용한다는 것을 추측할 수 있다. 

"Google and Samsung have long shared deeply-held values around the importance of making technology more helpful and accessible for everyone. We're thrilled that the Galaxy S24 series is the first smartphone equipped with Gemini Pro and Imagen 2 on Vertex AI," 

 

 https://www.googlecloudpresscorner.com/2024-01-17-Samsung-and-Google-Cloud-Join-Forces-to-Bring-Generative-AI-to-Samsung-Galaxy-S24-Series

 

Samsung and Google Cloud Join Forces to Bring Generative AI to Samsung Galaxy S24 Series

Google's Gemini Pro and Imagen 2 to deploy in production new text, voice, and image features on the new Samsung Galaxy S24 series SEOUL, Korea and SUNNYVALE, Calif., Jan. 17, 2024 /PRNewswire/ --...

www.googlecloudpresscorner.com

 

 

그럼 이제 Galaxy AI의 Image Generation의 model을 알기 위해 Imagen 2를 확인해야 하는데..

이 모델의 경우 논문도 나오지 않았고, technical report도 공개되어있지 않아(또는 내가 찾을 수 없어) 또 다시 추측을 해야한다.

 

Imagen 2 모델과 달리, Imagen(1)과 Imagen 3의 구조는 대략적으로 공개되어 있다.

Imagen paper(Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding)를 보면, latent를 사용하지 않는 diffusion model로 text encoder와 image를 생성하는 text-to-image Diffusion Model, 그리고 2개의 Super-Resolution Block이 있는 것을 확인할 수 있다. 처음부터 고화질의 이미지를 생성하지 않는 이유는.. 역시나 컴퓨팅 능력 때문. 너무 오래걸린다.

Imagen의 구조. Frozen Text Encoder와 Text-to-Image Diffusion Model, 그리고 두 개의 Super-Resolution Diffusion Model을 거쳐 최종 1024x1024의 이미지가 나온다.

 

 

 

 


그리고 Imagen 3의 경우 paper는 없지만, technical report에서 대략적으로 정보를 확인할 수 있는데, 

 

Imagen 3 is a latent diffusion model that generates high quality images from text prompts.

 


Imagen paper에서 latent prior를 학습할 필요가 없는 간단한 모델이라고 장점을 서술한 것과 달리 LDM(latent diffusion model)임을 밝히고 있다. Stable Diffusion(High-Resolution Image Synthesis with Latent Diffusion Models)처럼 latent space에서 Image를 생성까지 하는지 명확히 공개하지는 않았지만,,  단순히 latent를 사용(학습)한다는 표현 대신 LDM이라고 이야기를 한 것을 보면, LDM 논문에서 나온 구조를 차용하고 있을 것이라 생각한다.

 

 

그리고 Imagen 2는 공개된 날짜를 고려해보았을 때, Imagen 3와 더 유사한 구조를 가지고 있지 않을까 추측된다. Imagen의 경우 2022 CVPR에 발표되어 2021년에는 이미 학습까지 마쳤을텐데 Imagen 2의 경우 2023년말-2024년 초에 제한적으로 공개되기 시작하였고 Imagen 3의 경우 8월에 바로 공개되었다. 

 

시기가 좀 더 가까우니 더 비슷하지 않을까? 물론 아니면 말고 식의 무책임한 추측이다. 

paper보는게 참 싫었는데, 비공개 모델을 찾고 찾다보니 paper가 그리워진다...