Internship_LLM
-
GPT - 1.0 논문 리뷰Internship_LLM 2024. 1. 12. 17:40
지난 시간에는 BERT 논문을 리뷰해보았는데, 오늘은 BERT와 정확히 반대로 decoder를 건드린 GPT 논문을 리뷰해보려고 한다. 최근 OpenAI의 ChatGPT가 너무나 뛰어난 성능을 보여주면서, BERT를 잘 사용하지 않는 지경에 이르렀고 NLP가 chatGPT로 대통합되는 느낌을 받고 있는데, 그 시초가 되는 논문을 리뷰해보려고 한다. language_understanding_paper.pdf (openai.com) Abstract 일반적인 자연어 이해는 textual entailment, QA, sematic similarity assessment, Text Classification 등의 다양한 범위의 task로 구성이 된다. 하지만, large unlabeled text corpora는..
-
BERT 논문 리뷰Internship_LLM 2024. 1. 9. 14:43
지난 시간에 Attention Is All You Need를 통해서 Transformer 논문을 리뷰해보았다. 이번 시간에는 Transformer를 활용한 BERT 모델 논문을 리뷰해보고자 한다. [1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (arxiv.org) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding We introduce a new language representation model called BERT, which stands for Bidirectional Encoder ..
-
Attention Is All You Need - Transformer 논문 리뷰Internship_LLM 2024. 1. 4. 17:23
Attention 초기 논문에 이어 Transformer 모델을 제시한 "Attention Is All You Need" 논문을 리뷰해보고자 한다. LLM을 위해서 뿐만 아니라 거의 모든 AI에 적용되고 있는 모델들이기에 이 기회에 논문을 정독하고 리뷰를 작성해서 기록해보고자 했다. 1706.03762.pdf (arxiv.org) 1. Introduction RNN 자체는 재귀적 순환 구조를 가지고 있다보니 긴 Sequence 길이, 메모리의 한계와 같은 문제들에 봉착하게 되었다. -> 이 문제들을 해결하기 위해 모든 Network Architecture를 Attention 모델만을 이용해서 구축하고자 제안한 모델이 바로 Transformer이다. -> Attention이 입력, 출력 sequence 거..
-
Attention 초기 논문 리뷰Internship_LLM 2024. 1. 4. 11:21
기업 인턴을 진행하면서 LLM 연구를 시작하게 되었다. 그 가장 첫번째 발자취는 Attention의 가장 첫 논문인 "Neural Machine Translation By Jointyly Learning To Align And Translate" 을 리뷰하면서 Attention 모델을 이해하는 것이다. 1409.0473v7.pdf (arxiv.org) 1. Introduction machine translation에서 최근에는 Neural Machine Translation을 사용하고 있는데, 이는 대부분 encoder-decoder 방식을 사용하는 것이 일반적이다. - encoder : encoder Neural Network가 문장을 읽고 fixed-length vector 들을 encoding 한다..