생성AI 개발 업체들, 합성 데이터 주목한다...왜?
[사진: 셔터스톡]
디지털투데이 황치규 기자] 거대언어모델(LLM) 훈련에 필요한 대규모 데이터를 확보하려는 생성AI 업체들 움직임이 분주한 가운데, 컴퓨터가 생성한 합성 데이터((Synthetic Data)에 대한 관심이 고조되고 있다.
LLM 개발 업체들은 모델 훈련에 필요한 데이터 확보 일환으로 웹에서 긁어온 데이터나 사람이 생생한 데이터를 넘어 합성 데이터 활용을 주목하는 모습이다.
파이낸셜타임스(FT) 최근 보도를 보면 마이크로소프트, 오픈AI, 코히어 같은 회사들이 현재 LLM 개발에 합성 데이터 사용을 테스트하고 있다.
합성 데이터 관련한 AI 업계 행보는 몇 가지 현실을 밑바탕에 깔고 있다. 우선 인터넷에 공개돼 있는 데이터플 편하게 가져오기가 점점 힘들어지고 있다.
현재 오픈AI 챗GPT나 구글 바드 같은 챗봇에 투입된 LLM은 주로 인터넷에서 긁어온 데이터 기반으로 훈련된다. 이들 LLM 훈련에 내용된 데이터는 디지털화된 책, 뉴스 기사, 블로그, 검색 쿼리, 트위터 및 레딧 포스트, 유튜브 비디오와 플리커 이미지 등을 포함하고 있다.
이후 사람이 피드백을 제공하는 인간 피드백형 강화학습(Reinforcement Learning from Human Feedback, RLHF) 프로세스를 거친다. RLHF는 AI 모델에 생성한 결과에 대해 사람이 좋은지 나쁜지 피드백을 주고 이를 기반으로 모델을 최적화하는 방법이다. 오픈AI도 챗GPT 구현할 때 이를 활용한 것으로 알려져 있다.
하지만 AI 회사들이 LLL 훈련에 인터넷 데이터를 마음 대로 가져가는 것에 대한 반발도 적지 않다. AI 회사들이 공개돼 있는 데이터를 긁어가는 스크래핑((scraping)을 둘러싸고 레딧 같은 업체들은 강하게 반발하며 API 가격 인상 카드까지 뽑아들었다.
LLM 개발사들이 합성 데이터 활용에 나선 것은 이같은 상황과 무관치 않아 보인다. FT에 따르면 샘 알트먼 오픈AI CEO는 5월 영국 런던에서 열린 한 행사에서 규제 당국이 챗GPT가 프라이버시를 침해했을 가능성에 대해 조사하는 것을 우려하는지에 대한 질문을 일축하며 "조만간 모든 데이터는 합성 데이터일 것이다"고 말했다.
생성AI 훈련에 필요한 고품질 데이터를 확보하는 비용이 만만치 않다는 것도 AI 회사들이 합성 데이터로 눈을 돌리는 요인으로 부상했다. 생성AI 성능을 지금보다 크게 끌어 올리려면 양질의 데이터셋이 필수다.
이들 데이터셋은 과학자, 의사, 작가, 배우 또는 엔지니어 같은 전문가들 도움을 받거나 제약회사, 은행, 유통사 등 대기업들이 보유한 사적인 데이터를 통해 얻을 수 있는데, 실탄이 나름 든든한 회사라고 해도 비용 측면에서 부담일 수 있다.이런 상황에서 합성 데이터는 LLM 업체들이 데이터 확보에 따르는 진입 장벽을 우회할 수 있는 수단이 될 수 있다는 얘기다.
코미즈 코히어 CEO에 따르면 코히어 뿐만 아니라 몇몇 생성 AI 개발 업체들은 사람이 미세 조정하고 수정한 합성 데이터를 활용하고 있다. 널리 알려지지 않았지만 이미 상당한 규모로 활용되고 있다는게 그의 설명이다.
FT에 따르면 그는 첨단 수학에 대한 모델 훈련을 예로 들었다. 코히어는 서로 대화하는 2개 AI 모델을 활용하고 있는데, 한 모델은 수학 강사, 다른 한 모델은 학생 역할을 한다.
고메즈 CEO는 "이들 모델은 삼각법에 대한 대회를 하고 있다. 모두 합성이다. 모두가 모델이 단지 상상한 것들이다. 이때 사람이 대화를 살펴보고 잘못된 게 있다면 수정한다"고 전했다.
마이크로소프트 리서치가 최근 내놓 논문 2편에 따르면 합성 데이터는 오픈AI GPT-4나 구글 팜(PaLM)-2와 같은 대규모 소프트웨어보다 단순하고 크기가 적은 모델들을 훈련하는데 사용될 수 있다.
합성 데이터를 주특기로 하는 스타트업들도 나오고 있다. 스케일AI와 그레텔AI(Gretel.ai)와 같은 기업들은 이미 서비스형 합성 데이터를 제공 중이다.
그레텔의 경우 미국 국가 안보국(NSA)와 중앙정보국(CIA) 출신 정보 애널리스트들이 설립한 곳인데, 구글, HSBC, 라이엇게임즈, 일루미나 등과 협력하고 있다고 FT는 전했다. 그리텔 CEO 알리 골스한에 따르면 합성 데이터에서 핵심 요소는 데이터셋에서 모든 개인들 프프라이버시를 보호하면서도 통계계적인 무결성은 유지하는 것이다. 잘 만들어진 합성 데이터는 기존 데이터에서 편향과 불균형도 제거할 수 있다.
하지만 모든 합성 데이터가 현실 데이터를 개선하거나 반영하도록 신중하게 큐레이션되지는 않을 것이란 지적도 있다. FT는 옥스포드와 게임브리지 대학들 연구를 인용해 AI가 자체 생성한 결과로 AI 모델을 훈련하는 것은 거짓과 조작을 포함할 수 있고 시간이 가면서 기술을 오염시켜 되돌릴 수 없는 결함으로 이어질 수 있다고 전했다.
출처 : 디지털투데이 (DigitalToday)(http://www.digitaltoday.co.kr)
[디지털투데이 AI리포터] 스터빌리티 AI는 GPT-3.5와 견줄만한 성능을 보이는 2개의 대규모 언어 모델인 프리윌리(FreeWilly)1·2를 공개했다.
스터빌리티 AI가 선보인 LLM 프리윌리(FreeWilly) [사진: 스터빌리티 AI]
프리윌리1은 메타의 라마-65B를 기반으로 한 합성 데이터셋을 사용해 지도 학습 세밀 조정(SFT)을 통해 조정됐으며 프리윌리2는 라마2 70B를 통해 개발됐다.
두 모델은 다양한 벤치마크 테스트에서 GPT-3.5와 비교 가능한 성능을 보여준다고 온라인매체 기가진이 24일 전했다.
상식과 추론 능력을 검증하는 헬라스웩(HellaSwag) 테스트에서 GPT-3.5 기반 챗GPT는 85.5%의 성능을 보여준 반면, 프리윌리2는 이를 능가한 86.4%의 성능을 달성했다.
또한 AI 언어 능력을 검증하는 테스트인 MMLU 테스트에선 프리윌리2가 68.8%의 성능을 보여줬다. 챗GPT는 이보다 근소하게 앞선 70$%의 성능을 기록했다.
미국판 수능인 SAT 시험 항목에서는 프리윌리2는 (수학 과목을 제외하고) GPT-3.5와 동등하거나 더 높은 성능을 보여줬다. 스터빌리티 AI는 안전 조치를 더욱 강화하기 위해 외부 소스로부터의 피드백을 적극적으로 받고 있다.
출처 : 디지털투데이 (DigitalToday)(http://www.digitaltoday.co.kr)
네이버, 8월 하이퍼클로바X 공개 “초대규모 AI 생태계 확장 본격화”
일반 사용자부터 기업 고객까지 아우르는 다양한 응용 서비스 연말까지 순차 공개
(자료:네이버)
[데이터넷] 네이버가 한층 고도화한 자체 개발 초대규모 AI ‘하이퍼클로바X(HyperCLOVA X)’를 8월 공개할 예정으로, 이를 기반으로 하는 서비스 라인업과 연내 출시 일정 등을 최근 발표했다. 이를 통해 본격적인 초대규모 AI 생태계 확장에 나선다는 것이다.
네이버는 일반 사용자 대상 서비스와 기업 고객을 위한 비즈니스 도구까지 아우르는 응용 서비스 출시 계획을 네이버의 기술 채널인 ‘채널 테크’를 통해 발표했다. 우선 8월에는 기존 ‘하이퍼클로바’의 업그레이드 버전인 ‘하이퍼클로바X’를 공개하고, 이와 함께 대화형 에이전트 ‘클로바X(CLOVA X)’가 베타 서비스로 출시된다. 클로바X는 입력하는 질문에 답변을 생성해 제공하는 것을 넘어, 창작과 요약을 비롯한 뛰어난 글쓰기 능력을 활용해 개인의 생산성 도구로 이용할 수 있다. 나아가 다양한 서비스들을 플러그인 형태로 연동해 필요한 기능을 호출하는 것도 가능하다. 클로바X의 플러그인 생태계는 서비스 고도화와 함께 확장해나갈 계획이다.
이어 9월에는 생성형 AI 기반 검색 서비스 ‘큐:(Cue:)’도 베타 서비스 형태로 공개된다. 큐:는 하이퍼클로바X를 백본으로 해 개발된 검색에 특화된 생성형 AI 서비스다. 네이버가 가진 양질의 콘텐츠를 바탕으로 새로운 검색 경험을 제공한다. 복합적인 의도가 포함된 긴 질의를 이해하고 검색 계획을 수립할 수 있는 것이 큐:의 핵심 기능이며, 이후 답변 생성에 필요한 신뢰도 있는 최신 정보를 활용해 입체적인 검색 결과를 제공한다. 또한 검색을 중심으로 네이버 서비스들과의 연계를 확대해 사용자는 쇼핑이나 장소 예약 등 큐:를 통해 원하는 목표에 쉽게 도달하는 경험을 할 수 있을 전망이다. 큐:는 사용자 대상 베타 서비스를 시작으로 연내에는 네이버 검색에도 일부 적용될 예정이다.
하이퍼클로바X는 네이버 플랫폼에서 활동하는 창작자, 중·소상공인(SME) 등 파트너를 위한 도구에도 적용된다. 먼저 네이버의 콘텐츠 제작 툴 ‘스마트에디터’에 하이퍼클로바X를 결합한 새로운 버전의 글쓰기 도구는 9월부터 일부 블로그 창작자를 대상으로 제공된 후, 서비스 개선과 함께 점진적인 확대를 계획하고 있다. 글쓰기 좋은 소재를 추천하고, 키워드를 선택하면 적절한 초안을 써주거나 사용자가 쓴 글을 더 좋은 표현으로 편집할 수 있도록 돕는 것이 특징이다. 또한 SME의 생산성 향상을 위한 다양한 AI 솔루션 개발도 검토되고 있다. 이미 기존 하이퍼클로바가 마케팅 문구 작성, 고객 응대 자동화 등 SME의 사업 성장을 지원하는 여러 솔루션에 적용돼 있는 만큼, 하이퍼클로바X는 한층 더 고도화된 솔루션을 제공할 수 있다.
10월부터는 본격적인 기업간거래(B2B) 시장 확장에 나선다. 네이버 클라우드 플랫폼을 통해 서비스중인 하이퍼스케일(Hyperscale) AI 도구 클로바 스튜디오에 하이퍼클로바X 모델이 탑재된 버전을 8월 일부 기업에 선공개하고, 10월 공식 출시한다. 기업 고객들은 자체 데이터를 하이퍼클로바X에 결합해 자체적인 생산성 향상 도구를 구축하거나 맞춤형 AI 서비스도 만들 수 있다.
생성형 AI 서비스를 이용하는 기업 고객에 더욱 강력한 보안을 제공하는 ‘하이퍼클로바X를 위한 뉴로클라우드’도 10월 중 선보인다. 서버 인프라를 고객사의 데이터센터 내부에 직접 설치하는 기업 맞춤형 하이브리드 클라우드로, 이를 하이퍼클로바X에 최적화해 한층 뛰어난 보안을 갖춘 초대규모 AI 기술 솔루션을 제공한다.
성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “네이버는 초대규모 AI 기술력을 갖추고 있을 뿐만 아니라, 이를 활용해 실제 가치 창출이 가능한 서비스로 만들고, 비즈니스 생태계를 구축할 수 있는 글로벌 최고 수준의 역량을 보유하고 있다. 지난 2년 동안 초대규모 AI 기술을 성공적으로 사업화한 경험을 기반으로 사용자, SME, 기업 고객 등 플랫폼 파트너들과 더 확장된 AI 생태계를 조성할 계획이다. 이번 라인업 공개가 생태계 참여자들을 위한 ‘사전 안내서’가 되기를 기대한다”라고 말했다.
출처 : 데이터넷(https://www.datanet.co.kr)