환상상상속상 2023. 7. 28. 10:34

오늘은 일찍 잤는데도 잠을 잘 못잤다 ㅠ 내일 여행가니깐 일찍 집가야지~

 

1. 아침에 따듯한 물 먹기 O

2. 코딩테스트 연습 - 해쉬테이블 복습 O

3. 연구 - titanic에서 내가 생각한 방식으로 feature를 추출할 수 있는지 실험해보기. -> 알지만 모른다고 가정했을 때 찾을 수 있을까? O

4. 연구 - previous reasearch: explain AI 논문 읽기

낮잠 및 휴식 O

5. 여행 짐 챙기기

6. 사람에 대한 이해

7. 가족 약속

운동 휴식

 

- 오늘은 해시테이블을 복습했다. 리스트처럼 원소를 다룰 수 있지만 O(N)이 아니라 O(1)만에 원소를 빠르게 찾을 수 있다. 그래서 in, not in 연산을 통해서 원소를 빠르게 찾고 싶을 때 그러니깐 원래는 각 정보를 다 저장해두고 오랫동안 찾아야하는데 즉시 찾고 싶을 때 사용할 수 있고 시간복잡도를 매우 낮춰주므로 굉장히 좋다. 이를 통해서 N^3문제도 N만에 풀 수 있었다. 정보를 저장할 때는 dictionary, set을 활용하자.

 

- 알지만 모른다고 가정하고 찾을 때, 정말 많은 케이스를 보면서 하나하나 분석해보면 알 수도 있겠지만, 생각보다 원래 중요한 feature외에도 다른 요소들도 같이 높아지는 경우가 있다. 예를 들어서, male은 extreme하게 negative이고, class1은 extreme하게 positive인데 두 정보를 모른다고 가정하면 둘다 중요한 요소라고만 생각할 것이다. 하지만 확실한 것은 두 번째 feature는 살아남는데 있어서 긍정적인 영향을 미친것이고 첫 번째 feature는 살아남는데 있어서 부정적인 영향을 미친다는 것을 알 수 있다. 그렇다면 데이터에서 어떤 요소가 긍정적인 영향을 미쳤고 어떤 요소가 부정적인 요소를 보였는지 하나하나 살펴봐야된다. 한 feature당 하나의 concept만 들어있어도 이렇게 복잡하게 얽혀있는데 우리가 아는 feature가 simple하다는 보장이 없으니 feature 정보를 알아내기가 매우 어렵다.

그렇다면 오히려 clustering을 해서 그 group내의 데이터끼리 보고 공통점을 뽑고 높은 feature value를 가진 걸 찾는 게 낫지 않나? ㄹㅇ.. ㅠ