728x90
오전
아침에 옆건물 2층에서 공부를 조금 했습니다. 모두를 위한 딥러닝2 텐서플로 강의를 들었는데, 경사하강법을 tensoflow로 실습하는 게 약간 CPLEX같은 느낌이 들었습니다. 자연어 처리 시간에는 임베딩과 wod2vec을 배웠습니다.
응 ~ 모르겠어~~~~
- flatten을 하면 3차원에서 2차원으로 줄어든다.
- 단어나 문장을 벡터로 변환하여 벡터 공간으로 끼워넣는다는 뜻
- 워드 임베딩 -> flatten -> dense층
- 순환신경망을 이용하려고 할 때 flatten을 하면 잘 안 된다.
- 각 단어들의 유사도를 웅앵웅
- maxlen에 맞춰 padding되어 각 노드로 전달됨
- flatten을 하면 a1,a2,a3,a4,a5,b1,b2,b3,b4,b5,...옆으로 쭉 늘어난다.
- 원-핫 인코딩은 어떤 문장이든 1만개를 늘어놓고 단어를 체크(차원의 저주)하지만, 워드 임베딩은 현재 문장에서 사용된 단어의 종류만 가지고 각 단어의 유사도 값을 뿌리면서 진행한다.
- 워드 임베딩 기법 중 가장 널리 쓰이는 모델은 Word2Vec이다.
- Word2Vec에는 CBOW, Skip-gram이라는 두개의 하위모델이 있고 window 패러미터가 있다.
- CBOW는 window가 5개라면 인풋 4개 -> 아웃풋 1개(기준단어)가 나오고 Skip-gram은 인풋 1개당 아웃풋 1개가 나오기 때문에 훈련데이터가 많아진다. 대부분 CBOW보다 Skip-gram의 성능이 더 좋다고 한다. (훈련 데이터가 많아져서 그런가?)
- 학습할 텍스트를 불러와 형태소를 분석하고 리스트로 만든다.
- Word2Vec (임베딩 모델 만들고 저장)
- 그만할래요 ㅜㅜ
model = Word2Vec(sentences=data, size=embedding_dim, window='context 윈도우의 크기
, min_count=5, workers=학습을 위한 프로세스 수,sg=0 or 1)
# 0이면 CBOW, 1이면 Skip-gram
오후
한국인터넷진흥원, 사회보장정보원에서 특강을 했는데 질문해서 qcy이어폰을 받았습니다. 난 블로그에 올리기만 하면 돼서 사진만 찍고 옆자리 작은 큰형님 드렸는데 좋아하시는거 같기도 하고 모르겠습니다.(형님이 필요하다고 하셔서 드림)
저녁으로는 심가네 해물짬뽕 건너편 짬뽕집을 갔는데 ㄱㅊ은듯합니다. 난 물론 짬뽕밥 먹음.
내일부터 프로젝트가 본격적으로 시작되는 거 같습니다. 상대팀도 같은 걸 하고 싶어 하던데, 가위바위보의 신께서 도와주시면 감사하겠습니다.
728x90
'교육, 대외활동, 봉사 > BIG리더 AI 아카데미 2기' 카테고리의 다른 글
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 17 (0) | 2020.07.23 |
---|---|
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 16 (0) | 2020.07.22 |
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 14 (1) | 2020.07.19 |
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 13 (마이크로소프트 이소영 이사님, 빅리더 2기 3기 선배님들) (0) | 2020.07.19 |
[데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 12 (0) | 2020.07.18 |
댓글