(KDT) ROS2와 인공지능을 활용한 자율주행 로봇 개발자 양성과정 8기 교육과정 내에서 Exploratory Data Analysis를 주제로한 과제입니다.
- 기간: 2024.12.12 ~ 2025.01.03 (3주)
- 역할: 프로젝트 팀장 및 트렌드 데이터 담당
- 목표: 검색 트렌드 기반 예방적 건강 경보 시스템 구축
사실과 무관한 가상의 배경입니다.
보건복지부 첨단의료지원관 보건의료데이터진흥과의 팀이며, 다가오는 2025년 53회 보건의 날(4월 7일), 4월 보건의 달과 건강주간(7일-13일)을 위한 행사 및 사업을 준비하기 위해 데이터를 분석해야하는 상황.
기상 데이터와 질병 발생 통계, 검색 트렌드를 연계 분석하여
특정 질병(예: 장염)의 발생 가능성을 예측하고,
국민에게 사전 경보 형태로 제공 가능한 건강 예보 체계를 제안함.
- 언어: Python3.10
- 라이브러리: Selenium, BeautifulSoup, pytrends, Pandas, Numpy, Matplotlib
- 데이터베이스: MySQL, Amazon RDS, SQLAlchemy
- 협업 도구: Git, Slack, Jira, Confluence, Notion
| 역할 | 이름 (GitHub ID) | 주요 업무 요약 | 
|---|---|---|
| 팀장 | 김연우 (@yonmilk) | - 프로젝트 파일 구조 표준화 및 DB 관련 함수 통합 - 구글 트렌드 데이터 수집 및 질병 트렌드 변화 분석 | 
| 팀원 | 김규환 (@kimsnake) | - 보건의료 데이터포털에서 장염 환자 수 수집 및 정제 - 연령대별 질병 발생 통계 분석 및 인사이트 도출 | 
| 팀원 | 박세린 (@selnimon) | - 네이버 트렌드 데이터 수집 - 트렌드 변화 데이터 분석 및 시각화 | 
| 팀원 | 이상윤 (@sangyun1729) | - 기상청 지역별 일별 데이터(기온·습도·일교차)  수집 - 기상 변수와 질병 발생 간 상관관계 분석 | 
- 기상 상태와 질병 발생의 상관관계 분석
- 검색 트렌드와 실제 질병 발생 통계 간 유사성 검토
- 기후 기반 질병 경보 체계 설계 가능성 타진
기상 상태에 따른 질병 유행 여부 파악:
- 기상 상태와 질병 관련 키워드의 관련성을 분석하기
- 키워드(식중독, 인후염 등) 검색이 많아지면 실제 질병 발생이 많아지는지를 검토: 해당 검색어 트랜드와 질병 데이터 비교
- 기상 데이터와 질병 발생 데이터 그리고 검색 트랜드를 모아서 기상 상태를 기반으로 해당 질병 주의!!!
- 기상 변화에 따라서 주의해야할 질병을 국민들에게 미리 알릴 수 있음
- 프로젝트 기획 및 주제 정의
- 데이터 수집 및 정제
- 상관 분석 및 시각화
- 연령별/시기별 질병 트렌드 분석
- 경보 모델 초안 및 예측 도출
| 구분 | 출처 | 세부 내용 | 
|---|---|---|
| 기상 데이터 | 기상청 기상자료개방포털 | 지역별 일별 기온, 습도, 일교차 | 
| 대기질 데이터 | 에어코리아 | PM10, PM2.5 등 미세먼지 농도 | 
| 질병 통계 | 보건의료빅데이터개방시스템 | 연령대별 장염 환자 수 | 
| 검색 트렌드 | 네이버 데이터랩 / Google Trends | 질병 관련 키워드의 월별 검색량 | 
데이터 수집 (data_collect/)
- Google Trends: pytrends를 활용한 질병 관련 검색 트렌드 수집
- Naver Trends: 네이버 데이터랩 API를 통한 국내 검색 트렌드 수집
- 기상 데이터: Selenium을 활용한 기상청 데이터 스크래핑
데이터베이스 업로드 (database_upload/)
- 수집된 데이터를 MySQL 데이터베이스에 체계적으로 저장
- 기상 데이터, 대기질 데이터, 검색 트렌드 데이터 통합 관리
- DB 연결 및 쿼리 함수 모듈화 (db_function.py)
데이터 분석 (data_analysis/)
- 장염 분석: 기상 변수와 장염 발생의 상관관계 분석
- 식중독 분석: 일교차와 식중독 관련 감염병의 상관관계 분석
- 동상 분석: 저온 환경과 동상 발생 패턴 분석
- 상관관계 분석: 다양한 기상 변수와 질병 발생 간의 종합 분석
주요 참고 링크
- 네이버 검색 트렌드와 실제 장염 환자 수의 변화 패턴이 매우 유사
- 상승폭과 하강 시기가 일치하여 예측 지표로서의 가능성 확인
 
- 구글 검색 트렌드도 환자 수와 유사한 패턴을 보이나, 네이버보다는 일관성이 다소 낮음
- 검색 트렌드 데이터를 활용한 조기 경보 시스템의 타당성 입증
- 일교차(-0.66): 음의 상관관계로 일교차가 작을수록 환자 수 증가
- 최저 습도(0.50): 양의 상관관계로 최저 습도가 높을수록 환자 수 증가
- 온도 및 습도가 극값(변곡점)에 도달하는 시점에서 환자 수 급증 현상 관측
- 여름철 고온다습 환경과 겨울철 환경 변화가 장염 발생에 영향
- 0~9세 아동층에서 장염 환자 수가 압도적으로 많음
- 연령이 증가할수록 장염 발생률이 감소하는 경향
- 2024년 1월: 최근 5년간 최대 환자 수 기록 (708,131명)
- 2020년 3월: 최근 5년간 최소 환자 수 기록 (287,005명, COVID-19 영향 추정)
- 계절별로는 **여름(7-8월)**과 겨울(1월) 에 환자 수가 크게 증가
- 식중독 검색 트렌드와 실제 환자 수가 유사한 계절적 패턴을 보임
- 여름철(6-8월)에 검색량과 환자 수가 동시에 급증
- 서울 지역 데이터 기준으로 일교차와 식중독 발생 패턴 분석
- 일교차가 큰 **봄철(4-5월)**과 가을철에 환자 수 증가 경향
- 여름철에는 일교차가 작아도 고온으로 인한 환자 수 증가
- 0~9세 아동층이 장염 발생에 가장 취약
- 기상 변수(일교차, 습도 등)가 질병 발생에 유의미한 영향
- 구글보다는 네이버 검색 트렌드가 국내 질병 발생 예측에 더 적합
- 
검색 트렌드 기반 조기 경보 - 네이버 검색 트렌드를 실시간 모니터링하여 질병 유행 1개월 전 예측
- 특정 임계값 초과 시 국민 건강 주의보 발령
 
- 
기상 조건 기반 위험도 평가 - 일교차, 습도 등 기상 변수를 활용한 질병 발생 위험도 계산
- 기상청 예보 데이터와 연계한 사전 경보 시스템
 
- 
연령별 맞춤형 경보 - 0~9세 아동층 대상 장염 집중 관리
- 연령대별 취약 질병에 대한 차별화된 경보 제공
 
- 
2025년 전망 - 과거 데이터 패턴 분석 결과, 2025년 1월 장염 재유행 가능성 높음
- 여름철(7-8월) 장염 및 식중독 대비 필요
- 보건의 날(4월 7일) 행사와 연계한 국민 건강 캠페인 가능
 
단기 목표
- 질병 범위 확대: 식중독, 인후염, 독감 등 추가 질병군으로 분석 확장
- 지역별 분석: 전국 단위 분석에서 시/도별 세분화된 경보 체계 구축
- 경보 임계값 설정: 통계적 기법을 활용한 과학적 경보 기준 수립
중장기 목표
- 실시간 모니터링 시스템: 자동화된 데이터 수집 및 분석 파이프라인 구축
- 시각화 대시보드: 일반 국민이 쉽게 이해할 수 있는 인터랙티브 웹 대시보드 개발
- 예측 모델 고도화: 머신러닝/딥러닝 기반 질병 발생 예측 모델 개발
- 모바일 알림 서비스: 사용자 위치 및 연령대 기반 맞춤형 건강 경보 푸시 알림
- 공공 데이터 API 제공: 다른 연구자 및 기관이 활용할 수 있는 오픈 API 개발
기술적 개선 사항
- SQLAlchemy를 활용한 데이터베이스 연결 개선
- 데이터 파이프라인 자동화 (Apache Airflow 등)
- 클라우드 기반 인프라 구축 (AWS, GCP)
- CI/CD 파이프라인 구축