네이버클라우드
네이버클라우드가 실시간 방송에도 자동으로 자막을 달아주는 기능을 출시했다.
네이버클라우드는 인공지능(AI) 기반으로 음성을 텍스트로 변환하는 서비스인 기업용 ‘클로바 스피치(CLOVA Speech)’에, 실시간 방송 속 화자의 음성을 추출해 바로 자막을 생성하는 ‘실시간 스트리밍’ 기능을 덧붙여 출시했다고 2일 밝혔다.
클로바 스피치는 네이버 뉴스의 자동 자막 생성, 네이버 쇼핑라이브, 고객센터 통화 데이터 관리 등에 적용되고 있는 기업용 ‘스피치 투 텍스트(STT)’ 서비스다.
신규 기능으로 출시된 ‘실시간 스트리밍’은 라이브 방송과 같은 실시간 스트리밍 영상에서 화자가 말하는 내용을 즉시 텍스트로 추출해주는 기술이다. 한국어, 영어, 일본어 3개 국어를 지원하며 음성의 어절 단위로 텍스트가 형성된다.
현재 생방송 실시간 자막 서비스는 속기사가 일일이 작성한 자막이 제공되고 있으나 ‘실시간 스트리밍’ 기술을 활용한다면 별도 타이핑 작업 없이 실시간으로 자막을 송출할 수 있다. 또한 고객센터에서도 통화 내용을 즉각 텍스트화하여 모니터링 할 수 있어 보다 빠른 고객 대응이 가능해진다.
네이버클라우드는 실시간 스트리밍 신규 출시에 맞춰 서비스 요금도 인하했다. 음성인식·화자인식의 경우 기존보다 40% 비용을 낮췄으며 단일 요금제로 제공하던 것을 음성인식, 화자인식, 이벤트탐지(박수, 음악, 함성 등 인지)로 기능을 나눠, 각 기능별로 요금을 세분화했다.
네이버클라우드 AI 상품기획 김성훈 매니저는 “실시간 스트리밍 기능은 방송사, 라이브커머스 기업, 유튜버 등 실시간 방송을 필요로 하는 산업군에서 활용도가 높을 것으로 예상한다”라며 “앞으로도 AI 기반의 클로바 서비스를 고도화시켜 기업 비즈니스 성장에 도움이 될 수 있도록 지원하겠다”고 말했다.
출처 : https://www.khan.co.kr/it/it-general/article/202402021006001/ 김상범기자
구글 AI 모델 '제미나이 프로'
챗봇 평가서 GPT-4보다 우수
영상 만드는 '루미에르'도 공개루미에르에 ‘판다가 집에서 우쿨렐레를 친다’ 문장을 입력해 얻은 5초 길이 영상 중 일부. /루미에르 깃허브 페이지 캡처구글이 새로운 영상 생성형 인공지능(AI) 모델을 공개했다. 챗GPT로 시장의 게임 체인저가 된 오픈AI에 가려졌던 구글의 AI 역량이 다시 주목받고 있다.
지난달 25일 구글은 영상 생성 AI ‘루미에르’를 선보였다. 기존에 공개된 영상 생성 AI에 비해 진보된 성능이란 평가를 받으며 학계와 업계의 관심을 끌고 있다. 루미에르에는 구글이 개발한 신기술인 ‘시공간 U-넷’이 적용됐다. 영상 전체를 한 번에 처리하는 기술이다.
기존의 영상 생성 AI는 시간-초해상도(TSR)를 사용했다. 몇 개의 기준 프레임을 만들고 그 사이를 채워 시간해상도를 높여 영상을 제작하는 방식이다. 시간해상도는 관측이 얼마나 자주 이뤄지는지를 의미한다. 프레임 수가 많은 영상은 시간해상도가 높다.
예를 들어 AI를 통해 팔을 들어 올리는 영상을 제작한다고 하자. 기존의 영상 생성 AI는 팔을 내린 상태의 프레임과 팔을 올린 상태의 프레임만 존재하는 영상을 만든다. 이는 시간해상도가 낮은 영상이다. 영상의 시간해상도를 높이려면 두 프레임 사이에 들어가는 이미지를 보간(interpolate)해야 한다. 이 보간 과정이 TSR이다. 구글은 시공간 U-넷을 통해 TSR을 생략했다. 일부 프레임을 만든 뒤 이미지 사이를 보간하는 방식이 아니라 전체 영상을 한 번에 만든다. 따라서 프레임 사이를 보간하는 과정에서 발생할 수 있는 오류가 없어진다. 시공간 U-넷은 편집 자유도도 높다. 영상 스타일을 바꾸거나, 영상의 일부만을 재구성할 때 더 나은 성능을 보인다.
다만 영상의 길이가 짧고 해상도가 낮다는 한계가 있다. 루미에르는 5초 길이의 1024×1024픽셀 비디오만 생성할 수 있다. 유명인 합성과 같은 오용 사례 방지책도 아직 확보되지 않았다.
오픈AI는 2022년 챗GPT 공개 이후 AI 시장을 주도해왔다. 구글은 이런 변화에 상대적으로 대응이 늦었다는 업계 평가가 있었다. 그러나 최근 다양한 모델과 서비스를 발표하며 AI 분야에서의 건재함을 과시하고 있다. 구글은 범용 AI 모델인 ‘제미나이’를 지난해 공개했다. 이 중 제미나이 프로 모델은 지난달 27일 AI의 성능을 비교하는 허깅페이스의 ‘챗봇 아레나 리더보드’에서 오픈AI의 GPT-4 점수를 능가했다.
출처 : https://www.hankyung.com/article/2024020208911 / 황동진 기자 radhwang@hankyung.com
[ⓒ 픽사베이]
[디지털데일리 이종현기자] 블록체인과 메타버스에 이어 인공지능(AI) 시대가 도래했다. 너나할 것 없이 대부분 기업들이 스스로를 ‘AI 기업’이라고 외친다. 트렌드를 빠르게 쫓는 모습은 바람직한 일이다. 하지만 과연 알맹이가 있는지, 그저 마케팅 용어로만 사용하는 것은 아닌지, 우려가 드는 것도 사실이다.
‘챗GPT’ 등장 전에도 AI 챗봇은 존재했다. 대형 금융사나 커머스 기업 상당수는 콜센터 상담인력을 줄이고 AI 챗봇을 적용했다. 이런 챗봇을 사용한 뒤 든 생각은 ‘AI는 한참 멀었네’였다. 그러던 와중에 챗GPT가 등장했고, 부족한 것은 AI가 아니라 그 기업들의 기술력이었다.
챗GPT가 등장한 지 1년이 지난 현재, 그동안 주목받지 못하던 AI 기업들이 약진하고 있다. 우수한 기술력을 바탕으로 전문 영역에서는 챗GPT 못지 않은 성능의 챗봇을 만들기도 한다. 소형언어모델(sLLM) 시장에서는 한국 기업도 충분히 경쟁력 있다는 것을 입증하고 있다.
하지만, 과연 AI 기업이라 부를 수 있을지 의문스러운 곳들도 적지 않다. 사람이 수작업으로 시나리오를 만들고, 해당 시나리오에 의해서만 답변을 하는 4~5년 전 기술을 ‘AI 챗봇’이라 내세우는 가 하면, 공개된 오픈소스 대규모언어모델(LLM)에서 아주 조금의 파인튜닝을 한 것만으로 기술력을 갖췄다고 홍보하기도 한다.
오픈소스 LLM을 이용하는 것 자체는 문제가 아니다. 좋은 LLM을 개발하는 역량도 중요하지만 이를 활용해서 좋은 응용서비스를 만들어낼 수 있다면 그것 역시 훌륭한 경쟁력이다. 어찌보면 수준이 낮은 ‘자체 개발’보다도 훌륭하다고 할 만하다.
문제는 차별화된 경쟁력을 보여주지 못하면서 영업력을 앞세워 사업을 따내고 있는 일부 기업들이다. 통상 업력이 긴 기업이라면 기술력이나 노하우가 많이 쌓여있을 것으로 기대돼야 하지만, AI에서는 그 반대다. 한 업계 관계자는 “일부 기술력이 없는 기업들이 AI를 잘 모르는 고객을 대상으로 기술에 대한 기대감을 꺼트리고 있다”고 하소연하기도 한다.
블록체인과 메타버스의 데자뷔 같다. 여러 방면으로 활용될 수 있는 좋은 기술임에도 마구잡이로 오용하는 기업들로 인해 기대감이 완전히 사그라들었다. AI라고 해서 안심할 수 없다. 산업 진흥을 이어가되 ‘옥석 가리기’에 대한 고민은 꼭 필요하다.
출처 : https://www.ddaily.co.kr/page/view/2024020217521833516/ 이종현기자