LLM

올리브수
|2024. 5. 27. 16:04
728x90

1-1. LLM 은 무엇인가?

  • LLM(Large Language Model)
  • 언어 모델(Language Model) : 어린 아이에게 글을 가르치듯이 컴퓨터에게 어떻게 말을 하고 글을 쓰는 지 가르치는 것과 같음
  • 🌟 언어 모델의 발전과 관련하여 몇 가지 변곡점 존재

 

1-1-1. 언어 모델

통계적 언어 모델

  • 초기 모델 : 통계적 방법에 기반
    • 컴퓨터가 문장이나 단어를 얼마나 자연스럽게 표현하는가
  • 언어 모델에서의 확률/통계적 방법
    • n-gram: 일련의 단어나 문자가 얼마나 자주 함께 나타나는가.
    • 💡 이때, n은 연속적으로 고려되는 단어의 수를 말한다.

 

  • 1-gram(유니그램) : 전체 문장을 각각의 단어로 나눔
    • e.g. The / cat/ sat/on/the/mat
  • 2-gram(바이그램) : 전체 문장을 두 단어씩 나눔
    • e.g. The cat / cat sat / sat on / on the / the mat
    • c.f. 단어가 겹쳐야한다.
  • 3-gram(트라이그램) : 전체 문장을 세 단어씩 나눈다.
    • e.g. The cat sat/ cat sat on/sat on the/on the mat
    • c.f. 바이그램과 동일하게, 단어가 겹쳐야한다.
  • n-gram 을 이용해서 다음 단어를 예측하는 데에 사용함
  • e.g. 만약 The cat sat on 다음 단어를 예측할 때, sat on 다음에 자주 등장하는 단어를 서칭함
  • ∴ 언어의 통계적 패턴을 학습하고 문장을 이해함 ⇢ new 문장 생성
  • But, 가능한 모든 n-gram을 DB에 저장하고 있어야함

 

신경망 언어 모델

👉🏻 DNN 기반의 모델을 통해 앞선 DB 중심의 한계를 해결

 

Neural Network Language Model

  • 일반적인 뉴런 기반의 언어 모델
  • RNN(Recurrent Neural Networks)
    • 시퀀스 데이터 처리에 적합
    • 과거의 데이터 ➡ 현재의 결정에 영향
  • LSTM(Long Short-Term Memory Networks)
    • RNN의 시퀀스 데이터 처리에 대한 한계 극복

 

Transformer

  • 트랜스포머 아키텍처의 도입으로 문장과 단락 전체에 대한 처리가 가능해짐
  • LLM은 자연어에서 인간의 의도를 심층적이고 맥락에 맞게 이해
    • 콘텐츠 생성, 문장 요약 등에 대한 활용 확장

e.g.

  • BERT(Bidirectional Encoder Representations from Transformers)
    • 텍스트를 양방향으로 분석하여 맥락을 이해
    • 양방향 텍스트 분석? ⇢ 언어 모델이 단어 앞뒤 문맥을 고려함
  • GPT(Generative Pretrained Transformer)
    • GPT 모델은 다른 언어 모델에 비해 자연스러운 텍스트 생성 및 높은 수준의 대화를 진행

 

1-1-2. 거대 언어 모델(LLM)

  • LLM(Large Language Model)
    • _대규모 데이터_로 훈련된 매우 큰 규모의 인공 지능 기반 언어 모델

🤔 아무리 많은 데이터로 학습을 진행했다하더라도 다 거대 언어 모델이라고는 할 수 없음

  • 모델의 크기: 주로 모델이 가지고 있는 파라미터 수로 측정

모델과 파라미터 사이의 상관관계

 

1-2. LLM

1-2-1. LLM의 특징

  1. 방대한 텍스트 데이터로 부터 학습
  2. 언어의 이해와 생성에 있어서 특화
  3. 특정 작업을 위한 파인튜닝 가능
  4. LLM 훈련에 있어서 많은 컴퓨팅 자원 필요

 

1-2-2. LLM의 종류

  • Infrasturcture Layer : NVIDIA를 포함한 하드웨어/모델 제공 오픈 AI/Hugging face
  • Application Layer : 코드로 구현 가능한 프레임 워크/서비스로 활용할 수 있는 BI 툴 제공

+) GPT-4 부터 멀티모달을 지원한다.
⇢ 멀티모달? '여러 방법을 섞어 쓴다'는 뜻으로, 보고 / 듣는 두 방법을 같이 쓰는 경우가 여기에 해당
⇢ 사진, 글, 음성 등 여러 종류의 정보 처리를 제공

 

1-2-3. LLM 🆚 GAI 🆚 SLM

  • LLM
    • 거대 언어 모델
    • 대용량 텍스트 데이터 학습 ⇢ 인간의 언어 자연어 이해 및 생성
    • ∴ 텍스트 기반으로 질답, 글 작성, 대화 등 다양한 언어 관련 작업 시 사용
  • GAI
    • 입력 데이터를 기반으로 새로운 콘텐츠를 생성하는 AI
    • 다양한 형태의 콘텐츠 생성
    • ∴ LLM 보다 GAI 가 더 큰 범위의 인공지능

 

구분 GAI LLM
콘텐츠 생성 범위 텍스트, 이미지, 음성 등 텍스트 국한
학습 대규모 데이터 의존 But, 이미지/오디오 등 다양한 데이터 유형 학습 인터넷, 서적 및 기타 광범위한 텍스트 학습
출력 음약 ~ 예술까지 광범위한 출력 생성 사용자 질문에 일관되고 상황에 맞는 텍스트 생성
신경망 이미지를 위한 GAN 음악 같은 시퀀스 데이터를 위한 RNN 을 포함한 다양한 모델 사용 텍스트에 효과적인 RNN, 트랜스포머 사용
분야 여러 분야 활용 가능 언어 관련 작업 특화
728x90