2022년 4월 27일 수요일

제목: 인과관계 분석에 대해 짧은 기간 공부한 뒤 쓰는 무모한 글

(들어가며)

난 NCSOFT의  Data Analytics aNd Business Insights 블로그의 광팬이다. 

영감도 많이 얻고, 현장에서 어떤 분야에 관심이 많은지 배울 수 있어서이다.


제목: 인과관계 분석에 대해 짧은 기간 공부한 뒤 쓰는 무모한 글.

요 몇주간 프로젝트를 하면서 간만에 공부를 하고 있다.

한주간 진지하게 공부한 분야는 인과분석 이라는 분야이다.
현장에서는 어떻게 생각하고 계신지 이곳저곳에 조언을 진지하게 구하기도 하고, 스터디 자료를 보고 있다.

요즘 새로운 트랜드 따라잡는 공부 빡세게 안하고, 늘 익숙하게 쓰던 방법론만 고수한 것은 아닌가, 매너리즘에 빠져 있던건 아닌가 하는 반성을 뼈저리게 했다.

전에는 내가 아는 지식으로 확실히 현장에 새로운 아이디어를 공급하고 있다고 생각했는데, 인과분석 부분 공부는 현업에서도 2-3년 정도 전부터 적용하고 있던 것을 도리어 학계에 있으면서 늦게 착수하게 된 것 같다.

공부를 하면서 아직 결론을 내긴 매우 이르지만, 인과관계분석이라는 틀에 너무 매몰되면 안될 것 같다. 이로 인해 나의 장점을 잃게 될 수도 있겠다는 생각을 하게 되었다.
우선 나, 그리고 우리 팀의 강점은 아래 1, 2 이다.

1. 여러 게임회사들 데이터를 가지고 분석프로젝트를 다양하게 해서 어느 정도 도메인지식을 갖고 있다.
2. 특정 결과에 영향을 준 원인을 찾기 위해 이벤트들을 시퀀스로 재구성하고, 공통적인 결과에 도달한 유저들이 공통적으로 체험한 이벤트 시퀀스를 추출해 내는 방식을 즐겨 써 왔다.

1, 2 가 탄탄할 때의 강점들을 정리해 보았다.
3. 1이 강하면 2에서 추출해낸 시퀀스들 중 말이 안되거나 상관관계에 의해 잘못 해석될 부분을 걸러낼 수 있다.
4. 모집단을 설정하고 엄격하게 통제된 대조군을 만드는 작업도 중요한데, 결국 최종 해석에는 1이 필요하고 중요하다.

현장에서 고도화된 데이터 분석을 위해 인과관계 분석의 중요성이 높아진 것 같지만, 결국은 다른 방법을 또 현장에서도 찾게 될 것 같다.

그 이유는 다음과 같다.

1. 인과관계 분석을 엄격하게 수행하기 위해서는 정말 많은 노력이 필요하다. 온라인게임처럼 무슨 분석을 하던 feature 가 30-60개 가까이 뽑혀 나오는 데이터에서는 통제환경을 만들기 쉽지 않고 가성비가 나오지 않는다. 통제 조건을 만들기 어려운 이유로는 game world 가 in-game 내부로만 폐쇄된 가상세계가 아니라 real world life 와도 영향을 받기 때문이다. (월드컵, 드라마, 코로나, 프로모션, 중간고사, 방학, 현질, 작업장)
2. 인과분석이 잘 안되는 이유 중 또 하나로는 동일한 MMORPG 라 하더라도 동일한 이론이 먹히지 않는다는 것이다. 리니지에서 발견된 특정 패턴이 유사하게 리니지2 에도 먹힐까?
3. 유저들은 이미 여러 생을 살다 온 분들이고 전생의 기억을 가진 사람들이다. 태어나서 처음 접한 MMORPG 를 지금 하고 있으며 그 게임이 이 게임이라면 모르겠지만, 이들은 A라는 MMORPG 를 하기전에 B, C, D 게임의 경험을 가지고 있다. 또는 A 라는 MMORPG 에서 이미 본캐 잘 키워두고 부캐 키우는 중일 수 있다. 첫경험과 두번째 경험은 반응속도, 반응 결과가 다 다르다.
4. 무엇보다도 분석조직과 사업조직, 개발조직간의 관심사가 다른 점이다.
우선, 엄청나게 정교하게 진행해야 하는 코스트 대비 wow 를 이끌어 내기 쉽지 않다. 논문이라면 재미/감동/반전 을 추구할 수 있지만 말이다. 분석조직에서 wow 대단한 발견이에요! 라는 걸 막상 찾아냈다 하더라도, 기존에 통념으로 알려져 있던 이론을 모델로 엄격히 재확인 하는데 그쳤을 수 있다. 그 경우 사업부서에서는 아 그래서 어쩌라고요, 프로모션 해요 말아요 그것만 알려줘요.... 라는 반응이 안봐도 비디오다. 개발조직은, 아 그래서 이 퀘스트 삭제해요 말아요... 라는 반응이 나오게 된다.

결론:
딥러닝과 딥러닝 할아버지가 나왔지만, 빠른 프로토타이핑과 해석의 용이함을 제공하는 decision tree, logistic regression 이 여전히 유용하듯, 시리어스한 인과관계 분석에 가기 전 그 어느 지점을 현장에서는 선호할 것이라 생각된다. actionable 이란 용어가 그래서 많이 회자되는 건가?

추신:
원래 일주일 공부한 애가 무식해서 제일 무모하고 무섭다. 무모한 글은 여기까지만 적고, 제대로 공부 하자.


댓글 없음:

댓글 쓰기