2022 Statistical Data Analysis Term-Project
11/21 회의 내용
- 데이터 셋 선정: https://data.seoul.go.kr/dataVisual/seoul/seoulLiving.do: 서울 시민 생활 데이터
- 위 페이지에서 설명서와 각종 코드들 확인 가능
<데이터 설명>
- 평균 통화 대상자수 생산주기 기준 최근 3개월 월평균(단위: 번호 수) 통화대상자수, 문자대상자수 등
- 소액결제 사용금액 생산주기 기준 최근 3개월 월평균 사용금액(단위: 원)
- 요금 연체 비율 생산주기 기준 최근 3개월내 요금 연체 비율(단위: %)
- 주ㆍ야간 상주지 변화량 생산주기 기준 최근 36개월내 주ㆍ야간 상주지의 변경 횟수(단위: 횟수)
- 체류시간 생산주기 기준 최근 3개월간 야간 상주지 근처(거주 추정 위치) 체류시간 합계(단위: 분)
- 이동건수 및 이동거리 생산주기 기준 최근 3개월간 야간 상주지(거주지) 밖으로 이동한 건수와 이동거리 합계(단위: 횟수, km)
- 콘텐츠 사용지수 생산주기 기준 최근 3개월간 데이터 사용량을 3개월 전체데이터 사용량의 평균과 표준편차를 이용하여 표준화한 값(단위: z-score, 관련변수: SNS ,유튜브, 넷플릭스)
<분석 내용> 각자 데이터 셋 확인하고 어떤 것을 분석하면 좋을지 다음 회의에 논의 --> 다음 회의: 11월 23일 22시 카카오톡
11/23 회의 내용
주제: 1인가구 생활분석 -> MZ세대 생활상 분석으로 수정
분석 할 내용: 연령대별 지하철 이용량 차이가 있는지, 연령대별로 배달서비스 이용량의 차이가 있는지, 연령대별로 데이터 사용량에 차이가 존재하는지 + sns나 유튜브 사용량 차이도 포함 (흔히 MZ 세대의 특징이라고 사용되는 것들)
다음주에 할일: csv파일 전처리 및 필요한 데이터 추가(필요하다면 전처리 과정포함)
11/30 회의
- data preprocessing --> 금요일 까지
- EDA Plan --> 각자 한 데이터 분야 맡아서 분석하기 --> 일요일 까지 배달: 지희 지하철: 선규 데이터(SNS/유튜브/게임 등): 희성