본문 바로가기
강의 기록

서울대학교 이정혜 교수님 연구실 손호원 연구원 연구 소개

by Blaze_블즈 2023. 12. 7.

 

안녕하세요 

블레이즈 테크노트의 블레이즈 입니다. 

 

오늘은 머신러닝 및 딥러닝 강의를 듣고 그 내용을 소개해보겠습니다. 

 

제가 수업을 듣고 있는 이정혜 교수님의 연구실에서 진행한 프로젝트를 손호원 연구원님이 소개해주셨습니다. 

 

 

 

아래는 이정혜교수님과 연구실 홈페이지입니다. 

 

https://temep.snu.ac.kr/?cid=about/faculty/professors&mode=view&profidx=19

 

 

이정혜 - 전임교수 - 교수진 - 전공소개 - 서울대학교 대학원 협동과정 기술경영경제정책전공

Machine Learning & Deep LearningPrivacy-preserving Federated LearningSmart HealthcareSmart ManufacturingData Analytics for Technology InnovationBusiness Analyticshttp://temep.snu.ac.kr/

temep.snu.ac.kr

 

https://d3mlab.snu.ac.kr/home

 

D3M Lab.

Welcome to the homepage of D3M Lab. in TEMEP at SNU. The lab has recently moved from Department of Industrial Engineering at UNIST.

d3mlab.snu.ac.kr

 

유류 화물 물동량 예측 모델 개발

 

- 차원 축소 + 머신 러닝 및 딥러닝 모델 

- 데이터 오류 해결. 

- 다변량 데이터 특성 반영

 

물동량 예측이 무엇인가. 

 

특정 시점 별 데이터가 수집되어 있지...

시계열 특징을 포착해서 추후에 물동량이 어떻게 될지 예측하는 연구 

 

울산항만공사의 데이터를 활용 

울산의 주력 산업인 석유화학 및 정유에 물동량이 크게 영향을 많이 받음 

SK에너지, S-oil 이 울산에 위치. 

 

기존은 단변량 딥러닝 모델이 많았는데 다변량 모델을 개발해보자는 목표를 세움 

 

Port Community System 데이터 

-테이블 형태의 데이터이다. 

-다변량 물동량 예측에 적합하지 않음. 

-세분화된 데이터를 만들기 위해 아래의 데이터를 활용

 

Bill of Lading 데이터

-거래 계약이 담긴 데이터. 

-품목코드별로 분류가 되어있었는데 잘못 할당된 경우가 많음.

-설명이 난해하고 모호한 경우가 많음 : 명확하게 분류하기 어려움. 

-수기 작성으로 인한 오류 역시 존재함 : 어떻게 해결했는가? : 보다 정확한 분류체계를 개발했다. 

-garbage in garbage out. 쓰레기를 넣으면 쓰레기가 나옵니다.  

 

오탈자를 수정하는 모델을 만들었다....? 

-본격적으로 진행했다...

분류체계를 correction 하는 모델을 만들어서 해결함. 

 

그 다음 예측 모델을 만들었다. 

차원축소는 PCA, MDS, LLE를 활용. 

분류는 SVR과 RandomForest를 활용.

시계열 특성을 고려하지 않는 방향성을 가지고 있음 

 

시계열 특성을 고려하기 위해서는 LSTM 모델을 활용했다. 

 

전체적으로 머신러닝 기법보다 딥러닝 기법인 LSTM이 성능이 좋았다. 

 

 


두 번째 연구는 

국가 간 유사도 그래프 기반의 물동량 예측 모델 개발

https://scholarworks.unist.ac.kr/handle/201301/62651

 

ScholarWorks: 국가간 무역 유사도 그래프를 이용한 항만 물동량 예측 시스템 및 그 방법

국가간 무역 유사도 그래프를 이용한 항만 물동량 예측 시스템 및 그 방법 Title국가간 무역 유사도 그래프를 이용한 항만 물동량 예측 시스템 및 그 방법 Author이정혜; 임동철; 손원호; 김수현 C

scholarworks.unist.ac.kr

 

무역 국가의 다각화.

 

유류 화물 뿐 아니라 건화물도 다룸.

국가 간 무역 유사도 그래프 생성. 

국가 간 연결성을 표현하는 그래프를 생성했다. 

 

노드: 항만과 교역하는 국가 

엣지: 국가별 무역 물품 리스트의 유사도 

 

울산 항만이라는 노드를 제거함. 

따라서 울산 항만을 제외한 다른 국가들의 항만만 표현하면서 이 그래프 전체가 울산항만을 대표한다고 생각할 수 있음. 

 

시점, 국가, 수입/수출, 분류체계 를 데이터 컬럼으로 함. 

 

분류체계는 대분류냐 소분류에 따라 항목이 매우 달라지게 되는데 이 항목은 word2vec 과 TTD를 활용했다. 

같은 기름이라고 하더라도 종류가 매우 다양하니까 이를 word2vec을 이용한다음 코사인 디스턴스를 이용해 표현하고 유사도를 구했다. 

 

GCN 레이어: 그래프신경망을 활용해서 국가 간 관계를 포착하고자 한다. 

READOUT 레이어: 각 무역국가간 물동량을 목표로 하는 울산 항만으로 바꿔줌. 

LSTM 레이어 : 시계열 데이터의 특징을 포착. 

Fully Connected 레이어: 마지막으로 통합 

 


마지막 연구는

텍스트와 스타일 정보를 반영한 아웃핏 생성 모델 개발

 

 

아웃핏 생성 모델과 아웃핏 추천 서비스. 

무신사의 데이터를 활용했다. 

Oct. 2021 –  Oct. 2022 Multi-modal Data-based Outfit and Style Recommendation (무신사 산학과제) 

그렇다면 아웃핏이란 무엇인가? 

고객이 선택한 옷에 어울릴만한 다른 패션 아이템을 추천해주는 서비스 

 

 

기존 연구의 한계점 

- 아웃핏 어울림을 전체적인 상품조합의 어울림이 아닌 개별 상품 간의 어울림의 합으로 간주하는 경우. 

  그러나 때로는 어떤 하나의 아이템이 전체 스타일에 치명적일 수도 있다. 

- 스타일 정보의 부재로 인해 개인의 선호도를 반영하기 어려움. (개인화가 안된다?) 

 

 

데이터 전처리를 어떻게 할 것이냐

상품샷 이미지, 상반신 이미지, 전신 이미지 

데이터마다 다 달라. 

상의 데이터가 아니라 배경, 얼굴 들이 모두 들어감. 

 

상품명은 텍스트로 되어 있는데 이 역시도 텍스트 전처리를 해야 할 필요가 있었다. 

 

텍스트는 전부 영어로 통일했다. 

패션 도메인에 적합한 사전을 구축했다. (공용 -> public 이 아니라 uni-sex 로 번역할 수 있도록)

 

Multi-modal dual attention 

이미지, 텍스트를 각각 따로 encoder 처리를 함. 

이미지를 쿼리로 하고 

텍스트를 키와 밸류로 해서 cross-modality encoder로 이용했다. 

 

 

pairwisr similarity를 계산했다. 

상위, 하의 신발, 가방..... 

 

beam search 기반의 아웃핏 생성 모델을 만들었다. 

스타일 정보를 가미했기 때문에 스타일 유사도와 어울림이라는 수치를 활용해 생성된 아웃핏을 평가했다.

 

Q : 스타일이란 것도 시간에 따라 달라질 수 있지 않나? 유행이 있으니까 

올해 '시크'라는 데이터가 의미하는 바와 내년에 '시크'라는 데이터가 의미하는 바가 다를 수도 있는데... 

시계열 측면에서 바라볼 생각은 하지 않으셨는지 궁금합니다. 

 

A : 실제 무신사에서 사용되고 있는 분류체계를 그대로 사용했고 이 모델은 유행이라는 시간적 의미를 담고 있지는 않습니다.