애플, 기기 내 사용을 위한 소규모 AI 언어 모델 8종 출시

애플, 기기 내 사용을 위한 소규모 AI 언어 모델 8종 출시

최근 AI 분야에서 ‘소형 언어 모델’이라고 불리는 기술이 인기를 끌고 있습니다. 이는 데이터 센터급 컴퓨터가 필요한 클라우드가 아닌 로컬 기기에서 직접 실행할 수 있기 때문입니다. 지난 수요일, 애플은 스마트폰에서 직접 실행할 수 있을 정도로 작은 ‘OpenELM’이라는 소스 코드 공개 AI 언어 모델을 선보였습니다. 이들 모델은 현재 개념 증명 연구 모델로 제공되고 있지만, 애플의 미래 기기 내 AI 제품의 기초가 될 수 있습니다.

이 새로운 AI 모델들은 ‘Open-source Efficient Language Models’의 약자인 OpenELM으로 명명되었으며, 현재 Hugging Face에서 애플 샘플 코드 라이선스로 제공되고 있습니다. 라이선스에 일부 제한이 있어 ‘오픈 소스’의 일반적인 정의에 맞지 않을 수 있지만, OpenELM의 소스 코드는 공개되어 있습니다.

애플의 OpenELM 모델 중 일부는 270백만에서 30억 파라미터에 이르는 8개의 독립 모델로 구성되어 있습니다. 이에 비해 메타의 Llama 3 제품군에서 가장 큰 모델은 700억 파라미터를 포함하고 있고, 2020년에 출시된 OpenAI의 GPT-3는 1750억 파라미터를 자랑합니다. 파라미터 수는 AI 모델의 능력과 복잡성을 대략적으로 측정하는 지표로 사용되지만, 최근 연구는 몇 년 전의 큰 모델만큼 능력 있는 작은 AI 언어 모델을 만드는 데 중점을 두고 있습니다.

OpenELM 모델은 ‘미리 학습된’ 네 가지 모델과 ‘명령 최적화’ 네 가지 모델, 두 가지 형태로 제공됩니다. 명령 최적화 모델은 AI 비서 및 챗봇 개발에 더욱 적합합니다.

애플은 OpenELM의 훈련에 사용된 토큰이 대략 1.8조 개라고 밝혔습니다. 이러한 토큰은 AI 언어 모델이 데이터를 처리하는 데 사용되는 조각난 데이터 표현입니다. 또한, 애플은 ‘계층별 스케일링 전략’을 사용하여 각 계층에 파라미터를 보다 효율적으로 할당함으로써, 컴퓨터 자원을 절약하고 훈련 데이터가 적은 상황에서도 모델의 성능을 향상시켰다고 합니다. 이 전략으로 인해 OpenELM은 Allen AI의 OLMo 1B 모델보다 2.36% 더 높은 정확도를 달성했습니다.

애플은 OpenELM의 학습에 사용된 CoreNet 라이브러리의 코드와 학습 방법을 공개하였으며, 이는 주요 기술 회사에서는 드문 일입니다.

전자·IT·통신