LLM, 친칠라 스케일링 법칙 ?
"윌스트리트저널(WSJ)가 4월1일(현지시간) 오픈AI의 'GPT-4'나 구글의 '제미나이'와 같은 기술이 잠재적인 데이터 부족에 직면해 있다고 보도했다."
파블로 비라로보스 에포크 연구원이 "컴퓨터 과학 원리 중 '친칠라 스케일링 법칙'에 따라 'GPT-5'와 같은 AI 시스템은 현재의 성장 궤적을 따른다면 60조~100조개의 데이터 토큰이 필요할 것"이라며 "이는 현재 사용 가능한 모든 고품질 텍스트 데이터를 10조~20조개 이상 넘어서는 것"이라고 지적했다고 한다.
친칠라 스케일링(chinchilla scaling) 법칙?
- 데이터가 부족할 때 대규모 언어 모델을 확장하는 방법에 대한 연구와 관련되는 개념이다.
- 대규모 언어 모델을 확장하는 가장 보편적인 방식은 매개변수의 수와 학습 데이터 세트의 크기를 모두 늘리는 것이지만, 현실적으로 인터넷에 존재하는 텍스트 데이터의 양을 고려할 때 제약이 발생함
- 이러한 문제를 해결하기 위해 데이터가 제한된 환경에서 언어 모델을 확장하는 접근 방식을 연구하여 "데이터가 부족할 때 LLM을 계속 확장하는 방법"에 대한 해답을 찾음
- 90억 개의 파라미터를 사용하여 모델을 훈련하며 데이터 반복 횟수와 컴퓨팅 예산을 달리하는 다양한 실험 진행
- 그 결과, 데이터가 한정되어 있고 컴퓨팅 예산이 고정되어 있을 때 최대 4회까지 반복되는 데이터로 학습하는 것이 고유 데이터로 학습하는 것보다 손실에 미치는 영향이 적음을 확인
- 그러나 반복 데이터의 양이 증가함에 따라 컴퓨팅 리소스를 더 추가하는 것의 가치는 0으로 감소하는 현상 발생
- 그래서, 시간이 지남에 따라 반복되는 토큰 & 추가 매개변수가 가치를 잃는 방식을 고려할뿐만 아니라 데이터 부족 문제를 해결하기 위한 일종의 스케일링 법칙을 고안하였다.
- 데이터 희소성을 줄이기 위한 접근 방식으로 '학습 데이터 세트에 코드 데이터를 추가하고 일반적인 필터를 제거하는 방법'을 도출
- 코딩 데이터와 자연어 데이터를 결합하여 학습에 사용할 수 있는 유용한 토큰의 수를 최대화
- 이로써 코드 데이터를 포함하면 자연어 문제만 평가할 때에도 효과적인 토큰의 수가 증가한다는 사실 발견
- 정해진 양의 컴퓨팅 리소스로 더 큰 모델을 훈련하는 대신에 더 많은 데이터로 더 작은 모델을 훈련하면 성능이 향상될 수 있음을 관찰하였다.
- 이는 700억개의 매개변수가 있는 친칠라 모델과 2,800억개의 매개변수가 있는 고퍼 모델의 성능을 대조하는 연구에서 확인함
- 친칠라 모델은 4배 더 많은 데이터로 학습했기 때문에 동일한 컴퓨팅 예산을 사용하면서도 고퍼 모델보다 우수한 성능을 보임
A Survey of Large Language Models
기존 연구에 따르면 LLM의 파라미터 규모가 커질수록 모델 학습에 더 많은 데이터가 필요하다고 한다.
친칠라는 기존의 많은 LLM이 불충분한 사전 학습 데이터로 인해 최적이 아닌 학습을 수행한다는 것, 그리고 주어진 컴퓨팅 예산에 대해 동일한 규모의 모델 파라미터와 훈련 토큰을 채택할 필요가 있음을 보여준다.
LLaMA는 더 많은 데이터와 더 긴 트레이닝을 통해 더 작은 모델도 좋은 성능을 달성할 수 있음을 보여준다.
따라서, 연구자들은 특히 모델 파라미터를 확장할 때 모델을 적절히 훈련하기 위해 고품질 데이터의 양에 더 많은 주의를 기울일 것을 제안한다.
학습 데이터 세트는 단순히 정확한 값을 예측하는 일뿐만 아니라 컴퓨팅 자원에도 영향을 미치기 때문에 인공지능 기술을 개발하는데 있어 확실히 중요도가 높은 것 같다.
친칠라 스케일링 법칙 1: https://arca.live/b/characterai/77774029?p=1
친칠라 스케일링 법칙 2: https://brunch.co.kr/@brunchgpjz/49
LLM 데이터 고갈 뉴스기사 1: https://www.aitimes.com/news/articleView.html?idxno=158463
"2년 내 LLM 학습 데이터 고갈...데이터 문제로 AI 발전 중단될 것" - AI타임스
급속도로 성장하는 인공지능(AI) 모델이 데이터 부족 문제로 위협받고 있다는 지적이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것이라는
www.aitimes.com
https://www.hankyung.com/article/202401220871i
빅테크도 급했다…"2026년이면 AI가 학습할 데이터 고갈"
빅테크도 급했다…"2026년이면 AI가 학습할 데이터 고갈", 오픈AI, 구글 등 콘텐츠 업체와 잇달아 계약 국내 업체들도 뉴스 콘텐츠 확보 안간힘
www.hankyung.com