업계에선 글로벌 빅테크들의 경쟁이 AI를 넘어 검색 등 더 다양한 분야로 확대될 것으로 예상했다. 오픈AI는 최근 구글이 장악하고 있는 검색 시장을 노리고 마이크로소프트(MS) 검색엔진인 '빙'을 기반으로 검색 서비스를 개발 중인 것으로 알려졌다.
업계 관계자는 "생성AI 문서와 이미지에 이어 영상을 생성하는 분야에서도 AI 기술 주도권 경쟁이 치열한 분위기"라며 "빅테크간 경쟁 격화에 AI 기술력이 더욱 빠르게 고도화되고 있다"고 밝혔다.
생성형 인공지능(AI) 기술 경쟁이 본격화되면서 글로벌 빅테크 기업들이 시장 주도권 확보를 위해 분주히 움직이는 모양새다. 오픈AI와 구글이 앞다퉈 신기술을 선보이면서 AI 대중화도 빠르게 진행되는 분위기다.
16일 업계에 따르면 오픈AI는 지난 15일(현지시간) 문장을 최대 1분 길이 동영상으로 만들어주는 멀티모달 AI '소라(Sora)'를 공개했다. 기존 비디오 생성 AI가 4초 단위의 영상만 제작했던 것에 비해 생성 능력이 많이 향상됐다.
소라는 텍스트만으로 동영상을 생성할 수 있고 기존의 이미지를 동영상으로 생성할 수도 있다. 기존 동영상을 확장하거나 누락된 프레임을 채울 수도 있다. 다만 소라는 제한된 수의 창작자에게만 일단 허용된다. 실제 출시에 앞서 안전성 여부를 평가하기 위해서다.
앞서 페이스북 모회사 메타와 구글, 스타트업 런어웨이 AI 등도 '텍스트 투 비디오(Text to Video)' 모델을 개발한 바 있다. 오픈AI는 소라가 기존 모델보다 명령어의 맥락을 더 잘 파악할 수 있다는 것을 강점으로 내세우고 있다.
오픈AI는 "소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 묘사를 통해 복잡한 장면을 생성할 수 있다"며 "소라가 일반인공지능(AGI) 달성을 위한 중요한 이정표가 될 것"이라고 밝혔다.
이에 질세라 구글도 차세대 AI 모델 '제미나이 1.0 프로'의 업데이트 버전인 '제미나이 1.5 프로'를 공개하며 대응에 나섰다. 지난 8일 최상위 모델 '울트라 1.0'을 공개한 지 일주일 만이다.
제미나이는 학습 규모에 따라 나노, 프로, 울트라 3종류로 나뉜다. AI 모델이 한 번에 처리할 수 있는 정보의 양을 '콘텍스트 윈도(context window)'라고 하는데, 이는 단어·이미지·영상·오디오·코드 등의 의미를 가진 '토큰(token)'이라는 단위로 구성된다.
이날 공개한 제미나이 1.5 프로는 텍스트·이미지·음성·영상을 생성하는 중급 멀티모달 모델로, 한 번에 최대 100만 개의 토큰을 처리할 수 있다. 이는 현존 최대 수치로, 기존 제미나이 1.0 프로(3만2천 개), 경쟁사 오픈AI의 GPT-4 터보(12만8천 개)에 비해 월등하다.
제미나이 1.5 프로는 개발자를 위한 AI 개발 도구인 '구글 AI스튜디오'와 기업들이 AI 모델을 활용할 수 있는 플랫폼 '버텍스 AI'를 통해 프리뷰 버전으로 제공된다. 정식 버전에서는 12만8천 개 토큰이 기본 제공되고, 구매 옵션으로 토큰을 늘릴 수 있다.
구글은 "1시간의 비디오, 11시간의 오디오, 3만줄 이상의 코드, 70만 단어 이상의 코드베이스를 한 번에 처리할 수 있는 용량"이라며 "기존 모델을 개선하면서 구글의 최신 AI 모델인 '제미나이 1.0 울트라'와 비슷한 수준으로 성능을 높였다"고 설명했다.
메타는 지난 해 11월 이미지 생성 모델인 '에뮤(Emu)'의 기능을 개선해 텍스트로 영상을 편집하고 생성할 수 있는 기능을 추가했다. 이를 페이스북, 인스타그램에 연내 적용할 예정이다.
메타는 "에뮤는 지난해 출시한 영상 도구 '메이크-어-비디오' 시스템보다 한 단계 더 발전한 기능"이라고 말했다.
또 메타는 같은 해 5월 MTIA(Meta Training and Inference Accelerator)라는 자체 설계 칩을 처음 공개하며 AI 개발에 주력하고 있음을 알리기도 했다. 올해는 엔비디아의 고성능 그래픽처리장치(GPU) 등을 수십만 개를 구입해 지금보다 더 강력한 AI 모델을 개발한다는 방침이다.
메타 외에도 구글은 최신 칩(TPUv5p)을 자사 대규모 언어 모델(LLM)인 제미나이에 적용했다. 마이크로소프트(MS)도 '마이아 100'이라는 칩을 공개한 바 있다. 챗GPT 개발사 오픈AI는 자체 칩을 개발·생산하기 위한 네트워크를 구축하기 위해 삼성전자, SK하이닉스 등 글로벌 반도체 기업들과 논의 중이다.
업계 관계자는 "현재 AI 칩 시장은 엔비디아가 80% 가까이 장악하고 있다"며 "AI 모델을 훈련하는 데 필요한 AI 칩 공급 부족 등으로 주요 기업들이 자체 칩을 개발하고 있다"고 설명했다.
업계에선 글로벌 빅테크들의 경쟁이 AI를 넘어 검색 등 더 다양한 분야로 확대될 것으로 예상했다. 오픈AI는 최근 구글이 장악하고 있는 검색 시장을 노리고 마이크로소프트(MS) 검색엔진인 '빙'을 기반으로 검색 서비스를 개발 중인 것으로 알려졌다.
업계 관계자는 "생성AI 문서와 이미지에 이어 영상을 생성하는 분야에서도 AI 기술 주도권 경쟁이 치열한 분위기"라며 "빅테크간 경쟁 격화에 AI 기술력이 더욱 빠르게 고도화되고 있다"고 밝혔다.
출처: https://zdnet.co.kr/view/?no=20240216154205 / 장유미 기자
엔비디아는 지난 4일 '엔비디아(NVIDIA) GTC 2024'를 앞두고 APAC(아시아·태평양) 지역 온라인 사전 인터뷰를 진행했다고 8일 밝혔다.
인터뷰에는 그레그 에스테스 엔비디아 기업 마케팅, 개발자 프로그램 부문 부사장이 참석해 GTC 2024의 준비 과정과 특별히 주목할 만한 세션 등을 언급했다.
세계 최대 AI 개발자 콘퍼런스 GTC는 오는 18일부터 21일까지 미국 캘리포니아주 새너제이에서 개최된다. 팬데믹 이후 5년만에 대면 행사로 돌아온 GTC는 온라인으로도 참석 가능한 하이브리드 형태로 진행된다.
900개의 세션, 250개 이상의 전시, 수십 개의 기술 워크샵 등으로 구성됐으며 30만 명 이상의 전세계 개발자 커뮤니티 회원들이 참석할 것으로 기대된다.
엔비디아는 이번 GTC가 지난 해에 비해 2배 이상의 규모로 진행되는 만큼 행사를 위해 준비를 했으며 성공적인 행사가 될 것이라고 전했다. 특히 젠슨 황 엔비디아 창립자 겸 CEO의 기조연설은 1만명 이상 수용 가능한 SAP 센터에서 진행된다.
젠슨 황 CEO 기조연설은 이달 19일 오전 5시(한국 시간)에 생중계되며, 이후 온디맨드(On-demand)로 제공된다.
원문 : https://zdnet.co.kr/view/?no=20240308131344
오픈AI가 영상을 생성하는 인공지능(AI) 모델 '소라'를 공개한 가운데, AI 영상 생성 서비스 상용화에 대한 여러 전망이 나왔다. 국내 업계 관계자들은 영상을 생성할 때 드는 컴퓨팅 인프라 수급 문제부터 해결해야 한다고 주장했다. 모델 수익화 방안도 마련해야 하고, 데이터 학습 방식도 주요 고려사항으로 보고 있다.
오픈AI는 지난 15일 문자를 입력하면 고화질 영상을 생성하는 모델 소라를 홈페이지를 통해 공개했다. 현재 내부 개발팀을 비롯한 소수 영상 편집가, 아티스트, 기업인들에게 공급된 상태다. 사용자 피드백을 통해 기술을 검증한 후 서비스를 출시할 방침이다. 출시 일정은 미정이다.
"컴퓨팅 인프라 수요 감당해야…모델 수익화 방안도"
국내 전문가들은 영상모델을 통한 비즈니스가 활성화하려면 아직 멀었다고 입을 모았다. 우선 서비스 구동에 필요한 컴퓨팅 인프라 수급부터 해결해야 한다고 강조했다. AI 영상 생성 서비스의 상용화가 본격화하면 이를 구동하는 그래픽처리장치(GPU) 등 컴퓨팅 인프라 수요가 더 높아질 것으로 보인다는 이유에서다. 업계 관계자는 "언어모델보다 이미지·영상모델 구동에 더 많은 컴퓨팅 파워가 든다"고 했다.
오픈AI는 지난 15일 문자를 입력하면 고화질 영상을 생성하는 모델 소라를 홈페이지를 통해 공개했다. (사진=오픈AI)단순 GPU 확보를 넘어 영상 생성 서비스를 비용 효율적으로 운영하기 위한 기술 개발도 본격화할 전망이다. 네이버 관계자는 "AI 모델 압축과 경량화를 돕는 AI 칩 필요성이 더욱 커질 것"이라며 "네이버가 삼성전자와 손잡고 AI 반도체 솔루션을 공동 개발하고 있는 이유"라고 본지에 전했다.
영상모델을 통한 수익화 마련도 구체적이지 않다. 한 업계 관계자는 "오픈AI가 챗GPT를 운영하는 데 드는 컴퓨팅 인프라 비용만 하루 70만 달러(약 9억3천만원)"라며 "이보다 더 무거운 영상모델을 서비스하려면 몇 배 더 높은 운영 비용을 감당해야 할 것"이라고 설명했다. 단순히 API나 구독형으로 기업들에 제공하다간 적자가 불가피할 것이란 분석이다.
영상모델 소라가 만든 비디오. (사진=오픈AI)현재 AI 기업들은 범용 LLM 개발·운영에 드는 비용을 줄이기 위해 소형언어모델(SLM)을 개발하는 추세다. 범용 LLM에 자사 데이터를 넣어 파인튜닝 하는 방식도 진행하고 있다. 전문가들은 영상 생성 모델에도 동일한 방식을 적용했다간 낭패라는 입장이다. 한국어 LLM을 보유한 한 기업 관계자는 "LLM과 달리 영상모델은 기술적으로 경량화하기 힘들다"며 "모델 경량화는 퀄리티 낮은 영상을 생성할 수 있다"고 지적했다.
영상모델, 언어모델보다 3배 많은 데이터 필요
영상모델의 훈련 데이터양도 중요하다는 지적도 있다. AI 모델이 영화, 광고 등 산업에서 활용 가능할 정도로 수준 높은 이미지를 생성하기 위해선 이미지 데이터를 대량으로 학습해야 해서다.
다쏘시스템의 수칫 제인 솔리드웍스·3D익스피리언스 웍스 전략 및 비즈니스 개발 부사장.3D 설계용 AI 모델을 개발 중인 다쏘시스템의 수칫 제인 솔리드웍스·3D익스피리언스 웍스 전략 및 비즈니스 개발 부사장은 "일반적으로 언어모델을 학습시키는 것보다 영상모델 학습시키는 데 3배 더 많은 데이터양과 시간이 걸린다"고 기자에 전한 바 있다.
이미지 데이터에 스며든 사실 왜곡, 혐오 콘텐츠, 편향 등도 제거 해야 한다. 생성 결과물이 비윤리적이거나 편향된 경우 논란을 피할 수 없기 때문이다. 이에 오픈AI는 이미지 데이터 문제 해소를 위한 안전 조치를 취할 예정이라고 홈페이지를 통해 밝힌 바 있다. 영상에 등장할 수 있는 왜곡, 혐오 등의 기술적인 제거를 목표로 뒀다.
오픈AI는 "현재 사내 레드팀이 소라에 적대적 모델 테스트를 진행 중"이라며 "소라로 만든 영상을 분류할 수 있는 소프트웨어 도구도 개발하고 있다"고 설명했다.
출처: https://zdnet.co.kr/view/?no=20240220162304 / 김미정 기자