이제 데스크톱 및 모바일 웹 바드에서 간단한 설명만으로도 이미지 생성 기능을 이용할 수 있다.
구글 측은 "텍스트 설명만으로도 원하는 이미지를 손쉽게 구현해 아이디어를 더욱 생생하게 표현할 수 있다"며 "바드 이미지 생성 기능은 우선 영어 프롬프트로만 지원된다"고 말했다.
구글은 자사 인공지능(AI) 대규모 언어 모델(LLM) 제미나이 프로가 한국어를 포함해 모든 바드 지원 언어와 국가로 확대됐다고 2일 밝혔다.
제미나이 프로는 이해, 요약, 추론, 코딩, 계획 수립 등의 작업을 수행하며, 바드의 능력을 더 높여줄 예정이다.
한국어로도 바드의 대답을 다시 확인할 수 있게 됐다. 답변 하단의 구글 ‘G’ 아이콘을 클릭하면 바드가 구글 검색을 사용해 바드의 대답과 유사하거나 다를 가능성이 있는 콘텐츠를 찾아준다.
관련 내용 확인이 가능한 경우 녹색으로 강조 표시되며, 클릭하면 구글 검색 결과를 통해 더 자세히 알아볼 수 있다. 관련 내용 확인이 어려운 경우 주황색으로 강조 표시된다.
이제 데스크톱 및 모바일 웹 바드에서 간단한 설명만으로도 이미지 생성 기능을 이용할 수 있다.
구글 측은 "텍스트 설명만으로도 원하는 이미지를 손쉽게 구현해 아이디어를 더욱 생생하게 표현할 수 있다"며 "바드 이미지 생성 기능은 우선 영어 프롬프트로만 지원된다"고 말했다.
출처: https://zdnet.co.kr/view/?no=20240202082117 / 안희정 기자
오픈AI가 영상을 생성하는 인공지능(AI) 모델 '소라'를 공개한 가운데, AI 영상 생성 서비스 상용화에 대한 여러 전망이 나왔다. 국내 업계 관계자들은 영상을 생성할 때 드는 컴퓨팅 인프라 수급 문제부터 해결해야 한다고 주장했다. 모델 수익화 방안도 마련해야 하고, 데이터 학습 방식도 주요 고려사항으로 보고 있다.
오픈AI는 지난 15일 문자를 입력하면 고화질 영상을 생성하는 모델 소라를 홈페이지를 통해 공개했다. 현재 내부 개발팀을 비롯한 소수 영상 편집가, 아티스트, 기업인들에게 공급된 상태다. 사용자 피드백을 통해 기술을 검증한 후 서비스를 출시할 방침이다. 출시 일정은 미정이다.
"컴퓨팅 인프라 수요 감당해야…모델 수익화 방안도"
국내 전문가들은 영상모델을 통한 비즈니스가 활성화하려면 아직 멀었다고 입을 모았다. 우선 서비스 구동에 필요한 컴퓨팅 인프라 수급부터 해결해야 한다고 강조했다. AI 영상 생성 서비스의 상용화가 본격화하면 이를 구동하는 그래픽처리장치(GPU) 등 컴퓨팅 인프라 수요가 더 높아질 것으로 보인다는 이유에서다. 업계 관계자는 "언어모델보다 이미지·영상모델 구동에 더 많은 컴퓨팅 파워가 든다"고 했다.
오픈AI는 지난 15일 문자를 입력하면 고화질 영상을 생성하는 모델 소라를 홈페이지를 통해 공개했다. (사진=오픈AI)단순 GPU 확보를 넘어 영상 생성 서비스를 비용 효율적으로 운영하기 위한 기술 개발도 본격화할 전망이다. 네이버 관계자는 "AI 모델 압축과 경량화를 돕는 AI 칩 필요성이 더욱 커질 것"이라며 "네이버가 삼성전자와 손잡고 AI 반도체 솔루션을 공동 개발하고 있는 이유"라고 본지에 전했다.
영상모델을 통한 수익화 마련도 구체적이지 않다. 한 업계 관계자는 "오픈AI가 챗GPT를 운영하는 데 드는 컴퓨팅 인프라 비용만 하루 70만 달러(약 9억3천만원)"라며 "이보다 더 무거운 영상모델을 서비스하려면 몇 배 더 높은 운영 비용을 감당해야 할 것"이라고 설명했다. 단순히 API나 구독형으로 기업들에 제공하다간 적자가 불가피할 것이란 분석이다.
영상모델 소라가 만든 비디오. (사진=오픈AI)현재 AI 기업들은 범용 LLM 개발·운영에 드는 비용을 줄이기 위해 소형언어모델(SLM)을 개발하는 추세다. 범용 LLM에 자사 데이터를 넣어 파인튜닝 하는 방식도 진행하고 있다. 전문가들은 영상 생성 모델에도 동일한 방식을 적용했다간 낭패라는 입장이다. 한국어 LLM을 보유한 한 기업 관계자는 "LLM과 달리 영상모델은 기술적으로 경량화하기 힘들다"며 "모델 경량화는 퀄리티 낮은 영상을 생성할 수 있다"고 지적했다.
영상모델, 언어모델보다 3배 많은 데이터 필요
영상모델의 훈련 데이터양도 중요하다는 지적도 있다. AI 모델이 영화, 광고 등 산업에서 활용 가능할 정도로 수준 높은 이미지를 생성하기 위해선 이미지 데이터를 대량으로 학습해야 해서다.
다쏘시스템의 수칫 제인 솔리드웍스·3D익스피리언스 웍스 전략 및 비즈니스 개발 부사장.3D 설계용 AI 모델을 개발 중인 다쏘시스템의 수칫 제인 솔리드웍스·3D익스피리언스 웍스 전략 및 비즈니스 개발 부사장은 "일반적으로 언어모델을 학습시키는 것보다 영상모델 학습시키는 데 3배 더 많은 데이터양과 시간이 걸린다"고 기자에 전한 바 있다.
이미지 데이터에 스며든 사실 왜곡, 혐오 콘텐츠, 편향 등도 제거 해야 한다. 생성 결과물이 비윤리적이거나 편향된 경우 논란을 피할 수 없기 때문이다. 이에 오픈AI는 이미지 데이터 문제 해소를 위한 안전 조치를 취할 예정이라고 홈페이지를 통해 밝힌 바 있다. 영상에 등장할 수 있는 왜곡, 혐오 등의 기술적인 제거를 목표로 뒀다.
오픈AI는 "현재 사내 레드팀이 소라에 적대적 모델 테스트를 진행 중"이라며 "소라로 만든 영상을 분류할 수 있는 소프트웨어 도구도 개발하고 있다"고 설명했다.
출처: https://zdnet.co.kr/view/?no=20240220162304 / 김미정 기자
사용자들이 원하는 지역을 더욱 정확하게 찾을 수 있도록 구글 지도에 생성형 인공지능(AI)이 도입된다.
2일(현지시간) 더버지 등 외신에 따르면 구글이 초거대 언어모델(LLM)을 구글지도에 도입한다고 공식 블로그를 통해 밝혔다.
구글 지도에 도입되는 생성형AI는 2억 5천만 개 이상의 장소에 대한 세부 정보와 3억 명이 넘는 기여자로 구성된 커뮤니티의 리뷰를 기반으로 학습됐다.
(이미지=구글)이를 통해 사용자의 요구 사항이 다양하거나, 광범위하고 잘 알려지지 않은 지역을 원하더라도 빠르게 원하는 지역을 제안하는 것을 목표로 한다.
'샌프란시스코의 빈티지 분위기가 나는 장소처럼 요구하는 내용의 조건이 복잡하게 추가될 경우 AI 모델은 사진, 평점, 리뷰와 함께 주변 업체 및 장소에 대한 데이터를 분석해 정확한 데이터를 제공한다.
의류와 음반 매장, 중고상점 등 장소의 특성에 따라 카테고리화되며 사진을 비롯해 해당 장소별 요약된 서명을 함께 확인할 수 있다.
검색한 데이터를 바탕으로 후속 질문도 이어갈 수 있다. 빈티지한 곳을 방문한 후 음식점을 찾는 다면 주변 오래된 식당 등 현재 분위기에 어울리는 장소를 추천받을 수 있다.
주변 상황이나 개인적인 목적 등으로 갑자기 계획을 변경하는 경우에도 활용할 수 있다. 야외활동 중 갑자기 비가 내릴 경우 이에 대한 내용을 검색하면 AI는 영화관람 등 실내 활동을 제안하며, 가족이 함께 활동한다면 어린이 박물관, 실내 놀이터 등으로 계획을 변경한다.
구글은 "이는 우리가 생성형 AI를 활용하여 지도를 획기적으로 발전시키는 여정에 있어 첫걸음에 불과하다"면서 "앞으로도 지속해 AI 기술에 대한 투자를 통해 사용자 경험을 개선하고 새로운 사업 기회를 창출해 나갈 것으로 기대된다"고 전했다.
생성형 AI를 적용한 구글 맵스는 이번 주 미국 지역을 대상으로 진행되며, 추후 순차적으로 지역을 확대한다는 방침이다. 다만 언제 다른 국가에 적용될지는 아직 공개되지 않았다.
구글은 생성형AI를 미국 지역에 먼저 도입한 이후 점차 서비스 지역을 넓혀 나갈 계획이다.
구글의 미리암 다니엘 구글지도 부사장은 “이 실험적 기능은 사람들이 지도를 통해 더 쉽게 장소를 찾고 세계를 탐색할 수 있는 완전히 새로운 방법을 제시할 것”이라고 강조했다.
출처: https://zdnet.co.kr/view/?no=20240204005746 / 남혁우 기자