OpenELM Open Efficient Language Models | |
<colbgcolor=#333><colcolor=#fff> 개발 | Apple |
기능 | 언어 모델 |
공개 | 2024년 4월 |
라이선스 | 오픈 소스 소프트웨어[1] |
링크 |
1. 개요
Apple에서 개발한 오픈 소스 소형 언어 모델(sLM).2. 종류
M, B는 파라미터 수를 의미하며 각각 million, billion 단위이다.Instruct는 사용자의 명령형 프롬프트에 대응하도록 학습된 모델이다.
MLX[2] 포팅도 가능하다.
- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct
3. 특징
소형 언어모델인 sLM 중에서도 작은 편에 속한다. 그렇기 때문에 다른 모델에 비해 성능은 떨어지지만 운영에 필요한 비용이 저렴하고 휴대폰이나 PC 등에서도 온디바이스로 비교적 잘 작동한다.트랜스포머의 각 레이어에서의 파라미터 수를 변화시킴으로써 모델 전체의 파라미터를 효율적으로 배분하는 'layer-wise scaling'이라고 하는 기술을 채용했다.
구체적으로는, 입력에 가까운 레이어에서는 어텐션이나 피드 포워드를 위한 잠재 파라미터의 차원을 작게 하고, 출력에 가까워짐에 따라 서서히 레이어를 넓혀 간다. 이를 통해 제한된 파라미터 수에서 각 레이어에 적절한 수의 파라미터를 할당할 수 있다. 기존 언어 모델에서는 모든 레이어에서 같은 설정을 가지는 것이 일반적이었지만, 이 layer-wise scaling에 의해서 레이어 마다 다른 설정을 실시해, 파라미터를 보다 효과적으로 활용하는 것이 가능하게 된다. #
4. 둘러보기
| |||||||
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px; font-family: -apple-system, BlinkMacSystemFont, SF Pro Display, Pretendard, Inter, HelveticaNeue, Arial, sans-serif; word-break: keep-all;" | 하드웨어 제품 | ||||||
기타 단종 제품군|Apple Car | 스티커| | |||||||
소프트웨어 | |||||||
<colbgcolor=#333><colcolor=#fff>OS | iOS | iPadOS | watchOS | macOS | tvOS | visionOS | ||||||
App | iOS 앱 | Watch 페이스 | ||||||
AI | Apple Intelligence | OpenELM | ||||||
서비스 | |||||||
프로그램 | Apple Trade In | AppleCare+ | Apple 베타 소프트웨어 프로그램 | ||||||
이벤트 | Apple 이벤트 | WWDC | ||||||
Apple Store | 한국 | 미국 | 일본 | 영국 | 싱가포르 | 태국 | 인도 | 대만 | ||||||
캠퍼스 | |||||||
쿠퍼티노 | Campus | Park | ||||||
오스틴 | Riata Vista Circle | Austin Campus | ||||||
관계사 | |||||||
자회사 | Beats | Shazam | ||||||
인물 | |||||||
창업주 | CEO | 이사회 의장 | |||||
경영진 | 이사진 | 기타 | }}}}}}}}} |
[1] 정확히는 Apple Sample Code License를 사용한다.[2] 애플 실리콘용 딥러닝 프레임워크