학과/분야 뉴스

  • 학과 소식
  • 학과/분야 뉴스

[기사] 생성AI 개발 업체들, 합성 데이터 주목한다...왜?

  • 소프트웨어학과
  • 2023-07-25

생성AI 개발 업체들, 합성 데이터 주목한다...왜?

[사진: 셔터스톡]
[사진: 셔터스톡]

디지털투데이 황치규 기자] 거대언어모델(LLM) 훈련에 필요한 대규모 데이터를 확보하려는 생성AI 업체들 움직임이 분주한 가운데, 컴퓨터가 생성한 합성 데이터((Synthetic Data)에 대한 관심이 고조되고 있다.
LLM 개발 업체들은 모델 훈련에 필요한 데이터 확보 일환으로 웹에서 긁어온 데이터나 사람이 생생한 데이터를 넘어 합성 데이터 활용을 주목하는 모습이다.

파이낸셜타임스(FT) 최근 보도를 보면 마이크로소프트, 오픈AI, 코히어 같은 회사들이 현재 LLM 개발에 합성 데이터 사용을 테스트하고 있다.

합성 데이터 관련한 AI 업계 행보는 몇 가지 현실을 밑바탕에 깔고 있다.  우선 인터넷에 공개돼 있는 데이터플 편하게 가져오기가 점점 힘들어지고 있다.

현재 오픈AI 챗GPT나 구글 바드 같은 챗봇에 투입된 LLM은 주로 인터넷에서 긁어온 데이터 기반으로 훈련된다. 이들 LLM 훈련에 내용된 데이터는 디지털화된 책, 뉴스 기사, 블로그, 검색 쿼리, 트위터 및 레딧 포스트, 유튜브 비디오와 플리커 이미지 등을 포함하고 있다. 

이후 사람이 피드백을 제공하는 인간 피드백형 강화학습(Reinforcement Learning from Human Feedback, RLHF) 프로세스를 거친다. RLHF는 AI 모델에 생성한 결과에 대해 사람이 좋은지 나쁜지 피드백을 주고 이를 기반으로 모델을 최적화하는 방법이다. 오픈AI도 챗GPT 구현할 때 이를 활용한 것으로 알려져 있다.

하지만 AI 회사들이 LLL 훈련에 인터넷 데이터를 마음 대로 가져가는 것에 대한 반발도 적지 않다. AI 회사들이 공개돼 있는 데이터를 긁어가는 스크래핑((scraping)을 둘러싸고 레딧 같은 업체들은 강하게 반발하며 API 가격 인상 카드까지 뽑아들었다.

LLM 개발사들이 합성 데이터 활용에 나선 것은 이같은 상황과 무관치 않아 보인다. FT에 따르면 샘 알트먼 오픈AI CEO는 5월 영국 런던에서 열린 한 행사에서 규제 당국이 챗GPT가 프라이버시를 침해했을 가능성에 대해 조사하는 것을 우려하는지에 대한 질문을 일축하며 "조만간 모든 데이터는 합성 데이터일 것이다"고 말했다.

생성AI 훈련에 필요한 고품질 데이터를 확보하는 비용이 만만치 않다는 것도 AI 회사들이 합성 데이터로 눈을 돌리는 요인으로 부상했다. 생성AI 성능을 지금보다 크게 끌어 올리려면 양질의 데이터셋이 필수다.

이들 데이터셋은 과학자, 의사, 작가, 배우 또는 엔지니어 같은 전문가들 도움을 받거나 제약회사, 은행, 유통사 등 대기업들이 보유한 사적인 데이터를 통해 얻을 수 있는데, 실탄이 나름 든든한 회사라고 해도 비용 측면에서 부담일 수 있다.이런 상황에서 합성 데이터는 LLM 업체들이 데이터 확보에 따르는 진입 장벽을 우회할 수 있는 수단이 될 수 있다는 얘기다.

코미즈 코히어 CEO에 따르면 코히어 뿐만 아니라 몇몇 생성 AI 개발 업체들은 사람이 미세 조정하고 수정한 합성 데이터를 활용하고 있다. 널리 알려지지 않았지만 이미 상당한 규모로 활용되고 있다는게 그의 설명이다.

FT에 따르면 그는 첨단 수학에 대한 모델 훈련을 예로 들었다. 코히어는 서로 대화하는 2개 AI 모델을 활용하고 있는데, 한 모델은 수학 강사, 다른 한 모델은 학생 역할을 한다.

고메즈 CEO는 "이들 모델은 삼각법에 대한 대회를 하고 있다. 모두 합성이다. 모두가 모델이 단지 상상한 것들이다. 이때 사람이 대화를 살펴보고 잘못된 게 있다면 수정한다"고 전했다.

마이크로소프트 리서치가 최근 내놓 논문 2편에 따르면 합성 데이터는 오픈AI GPT-4나 구글 팜(PaLM)-2와 같은 대규모 소프트웨어보다 단순하고 크기가 적은 모델들을 훈련하는데 사용될 수 있다.

합성 데이터를 주특기로 하는 스타트업들도 나오고 있다. 스케일AI와 그레텔AI(Gretel.ai)와 같은 기업들은 이미 서비스형 합성 데이터를 제공 중이다.

그레텔의 경우 미국 국가 안보국(NSA)와 중앙정보국(CIA) 출신 정보 애널리스트들이 설립한 곳인데, 구글, HSBC, 라이엇게임즈, 일루미나 등과 협력하고 있다고 FT는 전했다.  그리텔 CEO 알리 골스한에 따르면 합성 데이터에서 핵심 요소는 데이터셋에서 모든 개인들 프프라이버시를 보호하면서도 통계계적인 무결성은 유지하는 것이다. 잘 만들어진 합성 데이터는 기존 데이터에서 편향과 불균형도 제거할 수 있다. 

하지만 모든 합성 데이터가 현실 데이터를 개선하거나 반영하도록 신중하게 큐레이션되지는 않을 것이란 지적도 있다.  FT는 옥스포드와 게임브리지 대학들 연구를 인용해  AI가 자체 생성한 결과로 AI 모델을 훈련하는 것은 거짓과 조작을 포함할 수 있고 시간이 가면서 기술을 오염시켜 되돌릴 수 없는 결함으로 이어질 수 있다고 전했다.

출처 : 디지털투데이 (DigitalToday)(http://www.digitaltoday.co.kr)