본문 바로가기
AI시대가 온다

오픈AI(Open AI) '소라(Sora)'... text로 만든 생성AI 비디오

by memewave 2024. 2. 21.
728x90

오픈 AI '소라 Sora'

챗봇, 이미지봇에 이어서 영상봇까지... 챗GPT가 할리우드도 장악하려고 합니다. OpenAI에서 공개한 최신 인공지능 SORA 입니다.

 

오픈 AI 첫 영상 생성 AI 소라 (Sora)

오픈에이아이(OpenAI)의 새 인공지능 모델 ‘소라’ 프롬프트(지시말)에 ‘한 세련된 여성이 따뜻하게 빛나는 네온과 생동감 넘치는 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고, 검은색 지갑을 들고 있습니다. 그녀는 선글라스를 쓰고 빨간 립스틱을 발랐습니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 길은 축축하고 반사되어 화려한 조명이 거울 효과를 만들어 냅니다. 많은 보행자가 걸어갑니다’ 내용을 입력해 생성된 영상.

 

 

 

소라(Sora)는 이미지 생성 AI인 달리를 기반으로 한 비디오 생성 인공지능(AI) 모델으로 텍스트나 이미지를 비디오로 변환할 수 있습니다. 챗GPT를 사용하듯 명령어를 입력하면 최대 60초 분량의 영상을 만들어냅니다. 문자로 대화를 주고받는 챗봇 ‘챗GPT’, 명령어를 통해 이미지를 구현하는 ‘달리’를 갖춘 오픈AI가 영상 분야로까지 사업을 확장한 것입니다.

 

 
 

 

오픈AI는 소라가 기존 인공지능 영상 생성 도구와 가장 차별화한 지점으로 “실제 세계에 사물이 어떻게 존재하는지 이해한다”는 점을 들었습니다. 이어 “소라는 시각적인 품질을 유지하며 여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등 최대 1분 길이의 비디오를 생성할 수 있다”고 했습니다.

 


공포감이 듭니다.

 

짧은 영상 소스를 생산하거나 제공하는 서비스업체 또는 관련 SaaS기업은 긴장을 안할 수가 없는 고퀄리티의 Text to Video 제네레이팅 인공지능을 공개한 것입니다. 소라는 텍스트를 비디오로 변환할 수 있는 AI 모델으로 명령어를 입력하면 최대 1분 분량의 영상을 만들어냅니다.

 

오픈 AI(OpenAI)의 새 인공지능 모델 ‘소라’(Sora) 출시로 광고·영상 업계가 술렁였습니다.  샘 알트먼 월드코인 공동창립자가 개발을 주도, 지난 15일 정식 출시됐습니다. 업계에선 1분 내외 짧은 영상(숏폼)이나 광고 영상을 제작하는 업체들이 “직격탄을 맞을 것”이라는 전망이 나옵니다.

 

 

소라 사이트 바로가기

 

오픈AI는 “(소라는) 언어에 대한 깊은 이해를 갖고 있어, 프롬프트(지시말)를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다”며 “사용자가 프롬프트에서 요구한 것뿐만 아니라 프롬프트 내용이 물리적 세계에 어떻게 존재하는지 이해한다”고 설명했습니다.

 

개발팀은 일본어로 ‘하늘’을 의미하는 ‘소라’에 대해 “무한한 창의성을 떠올리게 하기 위해서”라고 밝혔습니다.

한편, 소라가 생성한 관련 영상이 공개되자 크리스토발 발렌수엘라 런웨이 CEO는 X(트위터)에 ‘게임 시작(game on)’이라는 짤막한 글을 올렸습니다. 런웨이는 동영상 생성 AI의 선두로 평가받는 업체입니다.

 

 

지금까지 소라(Sora)가 생성한 영상은 매우 현실적이고 상세합니다. 솔라에 의해 생성된 비디오를 보려면 오픈AI에서 제공하는 소라(Sora) 웹페이지를 확인할 수있습니다. 해당 페이지에 공개된 영상 중 가장 긴 영상은 1분이며, 다른 영상들은 40초, 20초, 8초 등 다양한 길이로 제작되어 있습니다. 물론 오픈AI CEO 샘 알트먼(Sam Altman)의 X(구 트위터)에서 검색할 수 있습니다. 그는 최근 트윗에 여러 관련 영상을 공개했습니다.


소라 특징 및 작동원리

소라는 텍스트만으로 동영상을 생성할 수 있고 기존의 이미지를 동영상으로 만들 수도 있으며 기존에 발표된 프로그램과 달리 실제 카메라를 이용하여 촬영한 영상 같이 실사에 가깝고 배경과의 이질감이나 어색함을 찾아볼 수 없는 것이 장점입니다.

 

실제로 소라(Sora)에는

  • 확산(Diffusion) 모델을 통한 고품질 비디오 생성
  • 최대 2048×2048의 다양한 해상도 지원
  • 정지 이미지에 애니메이션을 적용한 고급 기능
  • 피사체의 시각적 일관성 유지
  • 실제 역학 시뮬레이션
  • 트랜스포머 기반의 확장성
  • 텍스트 및 이미지 프롬프트에 대한 충실도
  • 현실처럼 동작을 시뮬레이션하고 디지털로 랜더링하는 창발 속성(emergent)

등 특징이 설명돼 있습니다.

 


기술 및 작동원리

소라는 ‘챗GPT’와 마찬가지로 트랜스포머(Transformer) 아키텍처 기반입니다. 소라는 동영상과 이미지를 ‘패치’라는 작은 데이터 단위 모음으로 표현하며, 각 패치는 언어모델의 ‘토큰’과 유사한 방식으로 작동합니다. 방식에 대해서는 대형언어모델(LLM)의 텍스트 토큰처럼, 이미지 데이터를 압축한 뒤 ‘시각적 패치’로 변환하고 이후 분해해 영상으로 표현한다고 설명했습니다. 하지만 “모델 및 구현 세부정보는 이 보고서에 포함되지 않는다”라고 밝혔습니다.

시각적 패치 변환 설명도 (사진=오픈AI)

 


전체 동영상을 한번에 생성하거나 생성된 동영상을 확장해 더 길게 만들 수 있습니다. 한번에 여러 프레임을 예측할 수 있는 기능을 제공한다. 이에 따라 피사체가 일시적으로 시야에서 사라져도, 동일하게 유지하는 까다로운 문제도 해결했습니다. 소라는 텍스트 설명만으로 또는 기존의 정지 이미지를 통해서도 동영상을 생성할 수 있습니다. 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채우는 기능도 갖췄습니다.

 

 

소라 데모 풀영상

 


소라(Sora) 사용법

소라(Sora)는 텍스트를 기반으로 이미지를 생성하는 기능 외에 이미지를 영상으로 변환하는 기능(image-to-video)과 영상을 기반으로 새로운 영상을 만드는 기능(video-to-video)도 제공합니다. 또한, 영상의 전후를 확장하거나 두 개의 영상을 통합하는 기능도 제공합니다.

 

image-to-video 사용법

우선, 이미지와 함께 명령어를 입력하면 명령어 내 요청 사항이 반영된 영상으로 재탄생합니다.

 

video-to-video 사용법

영상을 기반 새로운 영상을 만드는 기능일 경우 명령어를 입력하면 명령어 내 요청 사항이 반영된 새로운 영상이 생성됩니다. 챗GPT에서 명령하듯이 손쉽게 명령할 수 있는 것으로 보입니다.

 

영상 확장 기능

최초 영상 생성 이후 영상의 전후를 확장하는 기능도 제공됩니다. 특히 시간을 거슬러 영상의 앞 부분을 확장하는 기능은 정말 놀랍습니다. 영상의 시작 부분은 서로 다르지만, 모두 같은 결말로 끝나는 것을 알 수 있습니다.

또한 두 개의 영상을 통합하는 기능도 제공됩니다.

 


소라 활용 방법

아직까지 소라(Sora)가 공개적으로 사용되지는 않았지만, 오픈AI에서 공개한 영상을 보면 앞으로 다음과 같은 목적으로 소라가 사용될 수 있음을 알 수 있습니다.

 

텍스트로 영화 예고편, 단편 영화, 애니메이션, 다큐멘터리 제작

소라는 영화 제작자와 스토리텔러가 자신의 아이디어와 개념을 시각화하고 설득력 있고 독창적인 영화를 만들 수 있도록 도와줍니다. 소라는 또한 시청자가 자신의 선호도와 관심분야에 따라 새롭고 흥미로운 콘텐츠를 발견하는 데에 도움이 됩니다.

 

새로운 요소로 기존 비디오 개선(강화)

소라(Sora)는 비디오 편집자와 제작자가 비디오를 개선 및 수정하고 더 많은 다양성과 창의성을 추가하도록 돕습니다. 또한 시청자가 피드백과 의견을 바탕으로 더욱 개인적이고 대화형 동영상을 즐길 수 있도록 도울 수 있습니다.

예를 들어 특수 효과를 추가하거나 배경을 변경하거나 새 캐릭터를 삽입할 수 있습니다.

 

텍스트 요약을 기반으로 교육용 비디오를 생성

소라는 교육자와 학습자가 정보가 풍부하고 흥미로운 영화를 만들고 접근할 수 있도록 도와줌으로써 그들의 이해와 기억을 증진시킬 수 있습니다.

 

또한 시청자가 호기심과 질문을 바탕으로 다양한 주제와 테마를 탐색하고 자세히 이해할 수 있도록 도와줍니다. 예를 들어 과학적 개념, 역사적 사건, 문화적 현상을 설명하는 것이 포함됩니다.

 

소셜 미디어를 위한 맞춤형 비디오 제작

소라는 소셜 미디어 사용자와 인플루언서가 자신의 개성과 감정을 표현할 수 있는 독특하고 재미있는 영상을 만들고 공유할 수 있도록 도울 수 있습니다. 소라는 또한 시청자가 좋아요와 댓글을 기반으로 친구 및 팔로어와 연결하고 상호 작용하도록 돕습니다.  예를 들면 생일축하, 여행일기나 밈 영상을 생성될 수도 가능합니다.

 

텍스트를 통해 아이디어·사나리오·꿈을 시각화

소라(Sora)는 디자이너와 혁신가가 프로토타입과 비전을 제작 및 테스트하고 피드백과 제안을 받을 수 있도록 도와줍니다. 또한 소라는 시청자가 상상력과 창의성을 바탕으로 다양한 현실과 가능성을 경험하고 즐길 수 있도록 돕습니다. 예를 들어 제품 디자인, 미래 상상, 판타지 세계 탐험 등이 있습니다.


지금 소라 사용 가능할까요?

소라 서비스와 결과물은 홈페이지에 공개됐지만 오픈에이아이는 누구나 접근해 사용할 수 있도록 제품으로 출시하지 않았습니다. 오픈AI는 소라를 AI 시스템의 결함과 취약점을 찾는 ‘위험기술(레드팀)’로 맡겨, 오용 가능성을 연구하고 있다며 소수의 학자와 외부 연구자그룹에만 기술을 공유하고 있다고 밝혔습니다. 소라와 같은 동영상 생성 서비스가 가짜뉴스나 딥페이크 등에 악용될 가능성이 있기 때문입니다.

 

또한 현재 오픈AI는 당분간 소라를 시각 예술가, 디자이너, 영화 제작자 등 제한된 수의 크리에이티브 전문가에게만 공개하고 피드백을 받고 있습니다.

 

그렇다면 소라는 언제 사용할 수 있나요?

현재 오픈AI는 소라가 대중에게 언제 어떻게 출시될지 발표하지 않았으며 가격이나 라이선스 모델도 발표하지 않았습니다. 따라서 레드팀에 속하거나 크리에이티브 테스터 중 한 명이 아닌 이상 기존 데모를 기다려야 합니다.


소라의 한계는?

물론 대부분 동영상 AI가 그렇듯, 아직 소라도 완벽하지는 않다. 오픈AI는 복잡하고 물리적인 장면을 묘사하는 데 어려움을 겪을 수도 있고, 인과관계를 이해하지 못하는 경우도 발생한다고 밝혔습니다.

 

예를 들어 사람이 쿠키를 한입 베어 무는 장면에 이어 쿠키를 깨문 자국이 나타나지 않을 수 있다는 설명입니다. 또 왼쪽과 오른쪽을 혼동하거나, 특정 카메라 궤적을 따라가는 동안 발생하는 이벤트에 대해 시간 순서를 헷갈리기도 한다고 전했습니다.

 

딥페이크 우려 등에 대해 오픈AI는 “소라는 대중에게 공개되기 전 중요한 테스트를 거치며 안전 조치를 취할 것”이라고 했습니다. 오픈AI는 “예를 들어 극단적인 폭력이나 성적이고 혐오스러운 이미지 또는 유명인의 초상을 사용하라는 요청을 거부하게 할 것”이라며 “또한 생성된 모든 비디오를 검토해 표시되기 전 사용 정책을 준수하는지 확인하겠다”고 했습니다.

 

 


소라가 주목 받는 이유

텍스트를 영상으로 전환하는 인공지능은 기존에도 존재했지만 소라가 주목 받는 이유는 높은 수준의 영상 시연을 통해 상용화 가능성을 보여줬다는 데 있습니다. 챗GPT를 만든 오픈AI에 대한 기대감도 반영됐습니다.

 

앞서 지난해 9월 페이스북과 인스타그램 등을 운영하는 메타는 동영상 생성 AI 모델인 ‘메이크 어 비디오(Make-A-Video)’ 개발 성과를 공개했습니다. 구글은 지난해 12월 동영상 생성AI 모델 ‘비디오 포엣(Video Poet)’을 발표했습니다. 다만 이들 서비스는 대중에게 공개되지는 않았고 영상에 다소 어색한 면이 있었습니다. 반면 오픈AI는 우선 제한된 창작자들에게 사용을 허가하겠다고 밝혔고 실제 영화로 오인할 정도로 자연스럽습니다.

 

오픈AI는 소라의 기술적 성과에 관해 “범용인공지능(AGI) 달성을 위한 중요한 이정표가 될 것”이라고 했습니다. 범용인공지능은 스스로 추론하고 성장하는 자율적 인공지능을 뜻합니다. ‘궁국의 AI’를 만들기 위한 토대가 마련됐다는 것입니다.

 

 


소라가 안전한가?

생성형 AI 기술이 발전하면서 사회적으로 우려도 커지고 있습니다. 특히 동영상 생성이 가능해지면 여러 측면에서 악용될 수 있습니다.

미국의 정보기술매체 ‘기즈모도’는 지난 15일 “소라는 현실감이란 개념을 엿먹이는 서비스(OpenAI’s Sora Is a Giant ‘F*ck You’ to Reality)”라고 보도했습니다.

 

이 매체는 “온라인 허위정보가 커뮤니티를 분열시키고, 선거를 조작하고, 수많은 사람의 이성을 잃게 만들어 큰 문제가 되고 있지만 실제 해결에 뛰어든 사람은 없다”며 “온라인 허위정보에 가장 큰 책임이 있는 기술기업들은 문제를 기하급수적으로 악화시키기 위해 가능한 모든 일을 하려는 의도를 지닌 것으로 보인다”고 비판했습니다.

 

오픈AI도 우려를 인지하고 있기에 서비스 발표와 동시에 ‘안전성’을 강조했습니다. 오픈AI는 영상 전문가들이 합류한 레드팀을 만들어 문제와 취약점을 찾아내는 방식으로 안전성 테스트를 하고 있습니다. 향후 제한된 이용자에게만 서비스하는 것도 오남용 소지를 줄이려는 조치로 보입니다.

 

사실 오픈AI는 또한 “광범위한 연구와 테스트에도 불구하고 사람들이 우리 기술을 사용하는 유익한 방법을 모두 예측할 수 없으며 사람들이 기술을 오용하는 모든 방법을 예측할 수도 없다” 며 “이것이 바로 사람들이 우리 기술을 사용함에 따라 여전히 모든 유익한 방식을 예측할 수는 없다. 실제 사용을 통해 학습하는 것은 시간이 지남에 따라 점점 더 안전한 AI 시스템을 만들고 출시하는 데 핵심 구성 요소다” 라고 했습니다.


'소라' 영향으로 AI 코인 일제히 상승

오픈AI가 텍스트-비디오 생성 인공지능(AI) 모델인 ‘소라(Sora)’를 공개한 후 월드코인(WLD)을 비롯해 AI 코인이 꾸준한 상승세를 보이고 있습니다.

 

20일(현지시간) 더블록에 따르면 싱귤래러티넷(AGIX)과 월드코인 등은 지난 24시간 동안 두자릿 수 상승을 기록했습니다. 오전 6시 55분 코인마켓캡 기준으로 싱귤래러티넷의 경우 하루 동안 11% 이상 상승해 약 0.52달러에 거래되고 있으며, 월드코인은 29% 오른 7.40달러에 거래되는 모습입니다.

 

특히 월드코인의 경우 한때 7.95달러라는 사상 최고치를 기록했고, 시가총액도 잠시 10억달러를 넘기기도 했습니다.

이외에도 AI 토큰의 시가총액도 지난 24시간 동안 크게 상승한 것으로 나타났습니다. 코인게코 데이터에 따르면 AI 토큰 목록은 8% 이상의 이익을 기록했으며, 해당 부문 시총은 약 150억달러에 달하는 것으로 알려졌습니다.

 

 

 

 

매킨토시 클래식을 살린 위대한 금손

매킨토시 40주년 기념, 클래식 조립을 하신 금손 금손을 넘어 레전드 조립pc가 나타났다. 어떻게 진행하셨는지 구경해보자. 오늘이 매킨토시 발표 40주년이라 슾린이 1호기 조립했어요! 겉은 구닥

phillipoh.tistory.com

 

주성치 '쿵푸허슬'은 진짜 무협영화! (쿵푸허슬 비하인드 스토리)

주성치의 코미디 '쿵푸허슬' 코미디 쿵푸 영화라고 우리가 즐겁게 보았던 영화 쿵푸허슬은 주성치를 갇독으로써의 성공과 홍콩영화의 제2의 부흥기를 잠시나마 만들어 준 영화이다. 주성치의

phillipoh.tistory.com

 

2024년을 지내는 이더리움 계열 코인들 전망

이더리움 계열 코인들의 2024년 지내기 암호화폐에 투자를 하지 않고 있다고 하여도 이더리움의 존재는 알 수 있을 정도로 유명해졌습니다. 이더리움(ETH)은 비트코인과 더불어 대표적인 암호 화

phillipoh.tistory.com

 

챗GPT가 알려준 2024년 유망한 알트코인들

비트코인 7천만원의 시대가 다시 왔다. 이더리움이 다시 400만원을 눈앞에 두고 있다. 그런데 비트코인 반감기가아직 시작도 안했다. 업계에서 유망한 알트코인의 상승은 끝이 어디인지 알수 없

phillipoh.tistory.com

반응형