LLM

LLMとは

  • 大規模言語モデル(Large Language Model)
  • 大量のテキストデータを使ってトレーニングされた自然言語処理のモデル。
  • LLMをファインチューニングすることで具体的なタスク(テキスト分類、感情分析、情報抽出、文章要約、テキスト生成、質問応答)などの*自然言語処理(NLP:Natural Language Processing)*タスクに応用する。

代表例

  • Google
    • BERT 2018年
  • OpenAI
    • GPT-3 2020年
    • GPT-3.5 2022年
      • ChatGPTGPT-3.5をチャット(対話)向けにファインチューニングしたもの。LLMの応用例の1つ。

学習ソース

  • 明確な基準や決まった学習ソースがあるわけではない。
  • BERTは28億語のWikipediaデータと8億語のGoogle BookCorpusで合計33億語のデータからトレーニングされている。
  • GPT-3は45TBのデータ(合計4990億トークン)からトレーニングされている。

パラメータ数

  • LLMニューラルネットワークに含まれるパラメーターの数も多い。
  • BERT 3億4千万パラメーター
  • GPT-3 1750億パラメーター
  • GPT-3.5 3550億パラメーター

基盤モデル との関係

  • GPT-3GPT-3.5基盤モデルであり、同時にLLMでもある。
  • テキスト以外のデータを使ってトレーニングした基盤モデルは大規模言語モデルではない。