내일?
피부, 옷
일정잡기
보고서 작성
운동, 춤
1. 아침에 물 한잔 O
2. 연구: repbert train pipeline 구현 완료 O
10분 휴식 및 스트레칭 (눈 긁지 않기, 인공눈물 점안, 멀리보기, 스마트폰 사용 금지) O3. 연구: repbert 보고서 완료
10분 휴식 및 스트레칭 (눈 긁지 않기, 인공눈물 점안, 멀리보기, 스마트폰 사용 금지) O
4. 취미: 힙합 베이직 클래스 5주차 O
5. 건강: 토마토, 요거트, 견과류, 영양제 O
6. 운동: 철봉 30분 O
7. 수면: 온찜질 15분 후 무조건 바로 자기 O
8. 피부: 세안 관련 영상 O
9. 웃긴 영상 보기! O
1st. train pipeline -> gpu, Dataset, sampler, Dataloader, optimizer, model, train
Dataset -> utils.data -> init, len, getitem
2nd. dataloader를 사용하기 위해서는 dataset의 getitem함수를 통해서 individual data를 가져올 수 있어야한다.
dataset을 만들기 위해서 아래와 같은 것이 필요했음
queries <- qid를 넣어주면 qids 나온다.
collections <- pid를 넣어주면 pids 나온다.
train: qids, pids, labels, qrels <- train을 위해서 (qid, pos_pid, label), (qid, neg_pid, label) 이 순서로 저장되어있는 3가지 list
max length for query, doc
tokenizer: cls, sep
getitem에서는 qids, pids에서 받아와서 qid, pid의 tokenids를 받아오고 max length로 잘라준 후에 cls, sep을 양쪽에 달고 dictionary로 qid, pid, qid tokens, pid tokens, relevance를 묶어서 리턴한다.
3rd. 이를 sampler를 통해서 어떤 순서로 뽑을 지 정해줘야하는데 pos, neg가 반복되니깐 sequential하게 추출하고 batch로 묶을 때 어떤 처리를 할 것인지 정하기 위해서 collate_fn도 정해줘야하는데 이를 보고 있었음. load_querydoc_pairs부분도 살펴봤음
4th. collate함수를 직접 데이터를 만져보면서 구현하고 싶었는데 그럴려면 dataset을 가져올 수 있어야한다. 그래서 사용하는데 다른 folder에 있는 파일을 실행할 수가 없어서 방법을 찾아봤다. __init__.py나 sys.path.append를 통해서 search할 수 있는 path list에 추가 해줬다. 그 다음에는 memmap를 읽어들이는데 변수명이 살짝 잘못됐었고, 그건 넘어가고 tokenize를 하고 나서 저장할 때 \t이 아니라 \n으로 저장했어야 했는데 다르게 저장해서 Line이 1이 되는 불상사가 있었다. tokenize된 정보를 저장할 때는 꼭 \n을 마지막에 붙여줘서 저장하도록 하자!
5th. tokenize, converting memmap를 하고나서 dataset으로 collate함수를 만들어보려고 한다.
collection.memmap를 완성하고 나서 dataset을 돌려봤는데 이제 getitem을 사용할 수 있어서 collate fn을 실험하기 위해서 batch를 만들어서 테스트하고 있었다. 이때, data['relevance']는 특별하게 length = length를 사용했는데 그 이유를 모르겠다.
train pipeline을 완성시키고 싶었는데 생각보다 dataset -> sampler -> collate_fn 까지 오래걸렸음 그래도 얻는게 많았으니 굿!
오늘 여러가지가 겹쳐서 힘이 들었다. 하지만, 오늘 계획한 것을 성실하게 해서 기분이 좀 낫다 :).
계란 바세린 팩? 좋은데?
'일기장 > 매일매일온전히집중하기' 카테고리의 다른 글
23.08.28 월 (1) | 2023.08.28 |
---|---|
23.08.25 금 (0) | 2023.08.25 |
23.08.23 수 (0) | 2023.08.23 |
23.08.22 화 (0) | 2023.08.22 |
23.08.21 월 (0) | 2023.08.21 |