본문 바로가기
강의 기록

네이버 Community CIC 데이터솔브팀 강의

by Blaze_블즈 2023. 11. 21.

안녕하세요 

블레이즈 테크노트 블레이즈입니다. 

 

오늘은 네이버 Community CIC 데이터솔브팀에서 근무하시는 분의 강의를 듣고 그 내용을 정리해보겠습니다. 

 

 

Community CIC 가 어떤 곳인지는 다음의 링크를 참고하면 좋을 것 같습니다. 

https://naver-career.gitbook.io/kr/service/band

 

Community CIC - 기술 직무 안내

커뮤니티 플랫폼과 오픈채팅의 기반이 되는 메시징, 통계, 추천, 분석, 모니터링 등의 대용량 처리 및 머신러닝 기술 연구 활동 및 기술 내재화를 통해 Global/Open Community 플랫폼의 기반을 단단히

naver-career.gitbook.io

 

 

연사: 주성연 (네이버 Community CIC, Data Solve팀) 

 

단순히 인구통계학적 데이터에서 만족할 수 없다.

어떤 콘텐츠를 생산/소비하는가? -이 정도의 구체성이 있어야 한다. 

 

비정형 데이터(이미지, 텍스트) 분류하고 정제해야 한다. 

 

이 팀에 들어가려면 뭘 잘해야 할까? 

 

코딩 잘하면 장땡?

딥러닝 핫하던데 잘하면 좋을까? 

 

2020년에 입사하여 지금 4년차가 되었다. 

 

이 일을 하기 위해 중요하다고 깨달았던 것을 오늘 말해주셨다. 

 

알고싶은 것을 알아내고 쉽게 설명하기. 

 

알고 싶은 것. 

분석의 목적. 

 

이걸 왜 분석하려고 하는가?

목적에서 공감받지 않으면 결과에 아무도 공감해주지 않는다. 

서비스적으로 알아야 하는 것. 

중요하지 않은 것을 파헤치는 바보가 되지 말자. 

 

지금 사람들이 궁금해하는 것은 무엇인가?

 

분석의 목적을 구체적이고 명확히 해야 한다. 

 

목적을 수립할 때 데이터를 까보고 목적을 수립하는 경우도 있고 

데이터 확인 전에 목적을 먼저 설정하는 경우도 있다. 

 

중간에 수정해나가더라도 분명하게 목적을 설정해야 한다. 

 

단순히 왜 우리 서비스를 안좋아하는가? 는 명확하지 않다. 

 

22년도 하반기부터 시작된 조회수 급삼의 원인은 00이다. 

이들의 시청 콘텐츠, 유입 경로의 변화 등 요인을 찾고 싶다. 

 

애초에 무엇을 알아보려고 했는지 까먹지 않는게 매우 중요합니다. 

 

목적이 분명하면

답이 안나오면 빠르게 포기할 수 있는 근거가 된다.

 

외부에서 데이터 분석을 요청하는 경우도 많다. 

이 때도 목적을 명확히 해야 한다. 

-- 현재 내가 하고 있는 팀 프로젝트에서도 많이 느끼는 점. 

 

어떤 기능이 효과가 있었는지 확인하고 싶다면 

효과가 무엇인지 먼저 정의해야 한다. 

그리고 이걸 왜 알고 싶은지도 파악해야 한다. 

 

서비스를 명확히 파악해야 한다. 

도메인 파악은 매우 중요합니다. 

 

 

다음으로, 알아낼 능력...! 

 

데이터 사이언스 분야 라면 

파이썬 코딩 실력, 시각화 라이브러리 활용, 딥러닝 머신러닝 지식 등이 있으면 좋을 것 같다. 

데이터에 대한 이해를 해야 함. 

 

비슷한 데이터끼리 그룹핑을 해야 한다. 

시각화 기술을 활용해야 하고. 

 

유명한 걸 가져다 쓰는 것은 어렵지 않지만 

있는 것을 그대로 쓰는 경우는 많지 않다. 

 

모델의 용량, 시간 이슈 등등 소수의 피쳐만 쓴다면 오히려 간단한 트리모델을 쓰는 게 나을 때도 많다. 

 

좋다는 거 그냥 쓰면 문제가 생깁니다. 

 

문서 유사도 계산할 때 거리는 무엇을 기준으로 해야할까? 

유클리디안 거리는 조금... 맞지 않을 것 같은데? 

 

선형대수학과 통계 수업을 잘 들으면 좋은 것 같다. 

단순히 시험 잘보기 위한 공부 말고. 

(맞아 저도 그랬어요...) 

 

딥러닝은 비선형성을 가진다는데 이게 왜 분류에 더 좋은 성능을 내는가? 

 

아는 게 많은 것도 좋지만 그 기저의 의미도 알아야 한다. 

 

 

마지막, 쉽게 설명하기 

 

의사 결정자에게 납득이 되도록 설명할 수 있어야 한다. 

전제가 달라지는 부분이 있는지 점검하면 도움이 된다. 

서로 전제가 다르면 다른 생각을 하게 된다. 

어디서 의견의 차이가 나기 시작했는지를 잘 찾아야 합니다. 

 

통계적 베이스가 없으면 데이터 분석을 하고 의미를 찾기가 어렵다. 

현직에서도 통계전공자를 선호하는 경향이 있다.