메타, 구글보다 우수한 이미지 생성AI 카멜레온 공개
[디지털투데이 AI리포터] 메타의 AI 연구소인 메타AI가 이미지 생성하고 분석하는 멀티모달 이미지 생성AI 모델 카멜레온(CM3leon)을 공개했다.
카멜레온은 텍스트로부터 이미지 생성하고 이미지로부터 텍스트를 생성할 수 있다고 온라인 매체 기가진은 18일 전했다.
또한 챗GPT 기반 기술인 트랜스포머(Transformer)을 효율적으로 훈련시킬 수 있으며 트랜스포머보다 5배 적은 컴퓨팅 파워로 이미지를 생성한다.
제로샷 MS-코코 테스트에서 카멜레온은 FID 4.88점을 록했다. 이는 구글의 이미지 생성 AI 파르티(Parti)보다 성능이 우수함을 나타낸다.
카멜레온은 "사하라 사막에서 모자와 선글라스를 쓴 작은 선인장"같은 구체적인 지시에도 걸맞는 이미지를 생성할 수 있다. 카멜레온의 구체적인 출시일은 밝혀지지 않았다.
출처 : 디지털투데이 (DigitalToday)(http://www.digitaltoday.co.kr)
사람 대신 앉아서 척척…세계 항공차트 다 외운 '조종봇' 공개 항공기 조작 매뉴얼, 비상 대처 절차 기억하는 인간형 로봇
연구팀 "진동 심한 항공기 내부서도 로봇 팔·손 정밀 제어"KAIST(한국과학기술원)이 개발한 휴머노이드 AI(인공지능) 로봇. 이 로봇은 고정밀 '강인 제어'(불확실한 시스템을 견고히 제어) 기술을 적용해 진동이 심한 항공기 내부에서도 로봇 팔과 손을 정밀 제어할 수 있다. / 영상=KAIST(한국과학기술원)
생성형 AI(인공지능) 챗GPT로 항공기 조작 매뉴얼을 학습한 휴머노이드 로봇이 탄생했다. 휴머노이드 로봇이란 사람처럼 움직이는 기계다. 이 로봇은 순수 국내 기술로 만들어졌으며 2026년 국방·안보 분야에서 상용화를 목표 중이다.
심현철 KAIST(한국과학기술원) 전기및전자공학부 교수 등 공동연구팀은 19일 비행기 매뉴얼을 이해하고 직접 조종까지 할 수 있는 '휴머노이드 AI 조종사 로봇'을 공개했다.
이 로봇은 이날 항공기 조종석에 착석한 후 다양한 장치를 직접 조작해 비행하는 방식을 선보였다. 조종석은 전혀 개조되지 않은 상태다. 특히 기존 항공기의 자동비행장치(오토파일럿)나 무인 항공기보다 기술적으로 우수하다는 게 연구팀 설명이다.
연구팀은 "인간 조종사는 전 세계 항공차트를 전부 기억할 수 없지만 조종사 로봇은 이를 전부 기억해 조종할 수 있다"며 "특히 챗GPT 기술을 적용해 항공기 조작 매뉴얼과 비상 대처절차를 담은 자료를 기억해 항공기를 인간보다 더 안전하게 조종할 수 있다"고 밝혔다.
KAIST(한국과학기술원)이 개발한 휴머노이드 AI(인공지능) 로봇이 항공기 기어를 조작하는 모습. / 영상=KAIST(한국과학기술원)연구팀에 따르면 기존 로봇이 고정된 위치에서 반복 작업만 할 수 있다면, 조종사 로봇은 장착된 카메라로 조종석 내부와 항공기 외부 상황을 파악하고 각종 스위치를 정확하게 조작할 수 있다. 고정밀 '강인 제어'(불확실한 시스템을 견고히 제어) 기술을 적용해 진동이 심한 항공기 내부에서도 로봇 팔과 손을 정밀 제어할 수 있다.
조종사 로봇은 현재 비행 조종 시뮬레이터에서 항공기 시동부터 이착륙, 순항, 주기 등 모든 조작을 수행하고 있다. 연구팀은 조종사 로봇을 실제 경비행기에 적용해 항공기를 직접 조종해 검증할 계획이다.
심 교수는 "이번 기술 개발은 기존 항공기를 전혀 개조하지 않고 즉각 활용할 수 있어 실용성이 매우 높다"며 "항공기뿐만 아니라 자동차, 장갑차 등 다양한 장치 조작도 가능해 병력자원 고갈이 심각한 현 상황에 매우 유용한 기술이 될 것"이라고 밝혔다.
이번 연구는 지난해부터 심 교수를 비롯해 주재걸 KAIST 김재철AI대학원 교수, 윤국진 KAIST 기계공학부 교수, 김민준 KAIST 전기및전자공학부 교수 협업으로 개발되고 있다. 개발 완성 시점은 2026년이며 민간과 군용 활용을 목적으로 사업화 방안을 모색 중이다.
비행 시뮬레이터에 탑승해 조종 중인 휴머노이드 로봇. / 사진=KAIST(한국과학기술원)
출처: 머니투데이/김인한 기자
[영상] 사람 대신 앉아서 척척…세계 항공차트 다 외운 '조종봇' 공개 - 머니투데이 (mt.co.kr)
[디지털투데이 AI리포터] 구글의 인공지능(AI) 챗봇 바드가 말을 할 수 있게 됐다.
바드의 음성 톤은 간단한, 긴, 짧은, 전문적인 다섯 가지 스타일이 영어로 지원된다. 다양한 바드의 음성 옵션은 마이크로소프트의 스위프트키(SwiftKey) 앱의 유사하지만 아재 개그를 만들 수 있는 능력은 가지고 있지 않아서 아쉽다고 IT매체 테크레이더는 13일(현지시간) 전했다.
구글은 조만간 힌디어, 아랍어를 포함한 40개 이상의 언어를 음성으로 말하는 바드를 180여국에 배포할 계획이다. 구글은 "바드의 음성 기능으로 올바른 발음 학습에 도움이 될 수 있다"고 말했다.
또한 다중모드 기능으로 이미지를 이해하고 관련된 답변을 할 수 있다. 사용자는 프롬프트에 이미지를 사용할 수 있다. 이미지를 전송하려면 프롬프트 바 옆의 플러스 기호를 누르면 된다.
대화의 특정 부분을 복사해 공유할 수 있으며 대화를 북마크하거나 대화명을 바꿀 수도 있다. 바드는 링크드인, 트위터, 레딧 등 소셜 미디어 플랫폼에 공유할 수 있는 링크도 생성한다.
개발자들을 위한 기능도 개편됐다. 바드가 생성한 정보와 코드를 공동 작업자에게 전송하는 과정이 간소화됐다. 이에 사용자는 바드가 만든 파이썬 코드를 코렙과 리플릿으로 보낼 수 있게 됐다.
바드의 음성 톤과 구글 렌즈 기능은 현재 영어 버전에서만 사용할 수 있다.
출처 : 디지털투데이 (DigitalToday)(http://www.digitaltoday.co.kr)