일기장/매일매일온전히집중하기

23년 5월 30일 화요일 / computer vision, 상체 운동, 힙합 유튜브 영상

환상상상속상 2023. 5. 30. 12:25

어제 유튜브 영상에서 감명을 받은 나머지 오늘부터 집중하기를 실천하려고 한다.

 

아무래도 시험기간이라서 공부를 할 것이다. 

 

오늘 내가 온전히 집중할 컨텐츠

1. computer vision: object detection, segmentation, metric learning, multimodal learning 1 

2. 상체 운동

3. 힙합 유튜브 영상 1개

4. 피부 관련 영상 1개

 

완료 후에 어떤 점을 느꼈는지 내가 좋았던 부분과 싫었던 부분을 정리해서 올릴 것이다.

 

1-1. object detection

이미지에서 물체를 포착하는 기술을 의미한다. bounding box를 통해서 물체를 detect하는데 이때 2가지 방식을 사용한다. 하나는 bounding box 여러 개를 proposal해서 그 중에서 적절하게 object를 찾아 classification하는 방법이 있고, 또 다른 방법은 이미지를 grid s x s개로 나눠서 각 cell에 대해서 object가 있는 지 분석하는 방법이다. 전자는 성능이 좋고 후자는 속도가 빠르다는 각자의 장점이 있다. 마지막으로 요즘에는 트랜스포머를 사용하는 모델인 DETR이 있는데 이미지를 cnn 모델을 통해서 뽑은 feature를 입력으로 트랜스 포머에 넣고 마지막에 bipartite matching을 통해서 적절한 loss를 구하게 된다. 코로나로 건물에 출입할 때마다 나를 탐지해서 온도를 측정했던 게 생각이 나는데 그때 이 기술이 쓰였다는 것을 알게 됐다. 모든 이미지에 후보 박스를 그리고 그 중에서 실제 박스와 일치하는 것들을 대상으로 coordinate나 relative한 size를 만들어서 학습한다는 점이 신기하다. 그리고 역시나 모든 분야가 마찬가지로 트랜스포머는 대단하다. 왜 이런 결과가 나오는지 궁금하다.

 

1-2. segmentation

이는 obejct detection과 유사한 기술이지만 조금더 정화하게 물체를 구분하기 위한 기술이다. 자율주행처럼 주변 환경을 정확하게 인지하거나 가상으로 옷을 입어보거나 화장을 할 때 분명하게 코, 입술 등을 구분하기 위한 기술이다. 여기서도 역시나 obejct detection의 방법을 많이 따랐지만 이를 pixel 단위로 해결하려는 노력이 많았다. 하지만 아무래도 픽셀 단위라서 계산량이 많이 필요하다보니 down sampling하고 upsampling하는 방법을 선택했는데 upsampling을 위해서 deconvolution방법을 적용했다. 대표적인 모델로는 UNET이 있고 이를 통해서 정밀하게 이미지의 object를 분석할 수 있었다. 수업을 들으면서 느낀 것은 이 분야에 정말 많은 천재들이 몸 담고 있다는 생각이 들었다. 그 이유는 전 세계적으로 유명한 기업들인 구글, 마이크로소프트, 페이스북 등에서 모두 참여하고 있기 때문이다. 혼자 읽었으면 정말 어려웠을 내용인데 교수님이 잘 정리해주셔서 그런지 쉽게 이해할 수 있었다. 어쩌면 이렇게 사람이 가진 기술 중 최첨단 기술을 공부할 수 있다는 것은 다른 사람들보다도 빠르게 접근할 수 있다는 점에서 좋은 점이라고 생각한다.

 

1-3. metric learning

학습할 때 사용할 수 있는 방법인데 이전에는 label을 부여해서 supervised learning을 했다면 이번 방법은 비교를 통해서 학습하는 방법이다. anchor가 있고 anchor와 비슷한 positive sample 그리고 전혀 닮지 않은 negative sample로 나눠서 이를 학습하는 내용이다. 이때 너무 쉬운 sample을 주는 것보다는 positive에 가까운 negative와 같은 hard negative나 sem-hard negative를 사용하는 것이 학습에 더 효과적이다. 대표적인 논문으로는 simCLR나 NCE가 있다. 내용이 살짝 어려워서 나중에 한번 더 봐야겠다.

 

1-4. multimodal learning 1

image에 대한 연구 그리고 text에 대한 연구가 생각보다 잘 되어가고 있다. 이제 사람들은 두 가지를 모두 결합한 연구를 진행하고자 했다. 생각보다 아주 간단하게 할 수 있다. 예를 들어서 LRCN을 살펴보자. 우리가 text를 처리할 때 RNN base로 text sequence를 넣고 문장을 생성할 수 있다. 이때 이미지에 대한 정보도 cnn model을 통해서 통과하여 함께 준다면 어떨까? 그렇다면 같이 입력된 이미지에 대한 description을 생성할 수 있을 것이다. 여기에 당연히 attention도 추가할 수 있고 그렇다면 image와 text를 동시에 transformer에도 사용할 수 있을 것이다. 아주 쉬운 모델로는 vilBERT 모델이 있는데 이는 중간에 coTRM을 사용해서 서로 다른 modal을 단서로 학습을 하게 된다. 간단하게 masking을 통해서 이미지는 이미지 문제를 풀고, 텍스트는 텍스트 문제를 풀고 최종적으로 각자의 cls토큰을 결합하여 두 개가 정리된 개념을 잘 정리할 수 있게 된다. 기존의 방법들을 통해 어떻게 하면 두 정보가 잘 정리될 수 있는지 학습하는 것처럼 보인다. 생각보다 굉장히 간단해보이는데 최근에 모든 modal을 합친 결과를 낼 수 있는 모델처럼 시간이 지나면 정말 모든 개념을 잘 정리할 수 있는 모델이 생겨날 수도 있다는 생각이 들었다. 가까운 미래에는 정말 우리가 상상하는 만능 인공지능이 탄생할 수 있지 않을까 그런 세상이 된다면 어떤 세상이 올지 궁금하다.

 

2. 상체운동

운동에 완전 집중하지 못했다. 운동을 하고 쉬는 시간인 1분 30초에 음악이 너무 좋아서 음악에 리듬을 타버렸다. 그래서 운동에는 집중하지 못했지만 리듬타는 걸 연습했다. 아주 간단하게 노래 리듬을 들으면서 꼭 메인 박자말고도 있는 피아노 소리나 끄는 소리 탁탁탁 치는 소리 같은 것에 집중했다. 그리고 그걸 표현하려고 몸을 움직였다. 이게 운동은 맞는데 ㅋㅋ 너무 춤 연습한 것 같다. 다음에는 조금 더 운동에 집중해야지. 그런데 이 노래 탁탁 치는 소리는 뭔지가 갑자기 궁금하네

 

3. 피부 관련 영상 1개

선크림 관련 영상을 봤다. 태양에서 날라오는 자외선은 a,b,c가 있는데 a와 b가 보통 오존층에 흡수되지 않고 날라온다. 이때 이 자외선은 피부에 닿으면 피부 노화나 피부 암을 야기하게 된다. 따라서 이를 막기 위해 선크림을 바르는데 중요한 것은 b를 막는 게 중요하다. 따라서 spf라는 수치를 통해서 b를 막는데 spf는 최소 50이상 그리고 60사이가 좋다. 물론 여행을 간다면 위치에 따라서 정도가 달라질 수 있다. a는 pa를 통해서 막는데 +++이상이 좋고 ++++도 좋다.

그리고 선크림은 크게 2가지 종류로 나뉜다. 하나는 유기자차로 피부에 흡수가 돼서 보호하는 역할을 하는 선크림이 있고 하나는 무기자차로 방패처럼 코팅되는 선크림이 있다. 전자는 화합물이 흡수돼서 트러블에 안좋을 수 있는 단점이 있고 후자는 너무 하얗게 변하는 단점이 있다. 의사 선생님은 무기자차를 선호한다고 하신다.

이렇게 선크림을 바르는 것은 좋은 습관이지만 씻는 것이 잘 병행되지 않으면 피부에 오히려 안좋을 수 있다고 한다. 그래서 이중세안을 추천해주는데 나중에 세안법을 참고하자. 추가로 이중으로 바르고 목에 바르는 것도 중요하다고 말했다. 3시간 이상 외부활동을 한다면 아무리 흐린 날이라도 선크림을 바르도록 하자.

 

4. 힙합 관련 영상 1개