Skip to content

yonmilk/HealthCasting

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

47 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

HealthCasting: 검색 트렌드와 함께 보는 건강 경보 체계

(KDT) ROS2와 인공지능을 활용한 자율주행 로봇 개발자 양성과정 8기 교육과정 내에서 Exploratory Data Analysis를 주제로한 과제입니다.

프로젝트 개요

  • 기간: 2024.12.12 ~ 2025.01.03 (3주)
  • 역할: 프로젝트 팀장 및 트렌드 데이터 담당
  • 목표: 검색 트렌드 기반 예방적 건강 경보 시스템 구축

사실과 무관한 가상의 배경입니다.

보건복지부 첨단의료지원관 보건의료데이터진흥과의 팀이며, 다가오는 2025년 53회 보건의 날(4월 7일), 4월 보건의 달과 건강주간(7일-13일)을 위한 행사 및 사업을 준비하기 위해 데이터를 분석해야하는 상황.

기상 데이터와 질병 발생 통계, 검색 트렌드를 연계 분석하여
특정 질병(예: 장염)의 발생 가능성을 예측하고,
국민에게 사전 경보 형태로 제공 가능한 건강 예보 체계를 제안함.

기술 스택

  • 언어: Python3.10
  • 라이브러리: Selenium, BeautifulSoup, pytrends, Pandas, Numpy, Matplotlib
  • 데이터베이스: MySQL, Amazon RDS, SQLAlchemy
  • 협업 도구: Git, Slack, Jira, Confluence, Notion

열정이 넘쳐 흐르는 4팀 overflow

역할 이름 (GitHub ID) 주요 업무 요약
팀장 김연우 (@yonmilk) - 프로젝트 파일 구조 표준화 및 DB 관련 함수 통합
- 구글 트렌드 데이터 수집 및 질병 트렌드 변화 분석
팀원 김규환 (@kimsnake) - 보건의료 데이터포털에서 장염 환자 수 수집 및 정제
- 연령대별 질병 발생 통계 분석 및 인사이트 도출
팀원 박세린 (@selnimon) - 네이버 트렌드 데이터 수집
- 트렌드 변화 데이터 분석 및 시각화
팀원 이상윤 (@sangyun1729) - 기상청 지역별 일별 데이터(기온·습도·일교차) 수집
- 기상 변수와 질병 발생 간 상관관계 분석

분석 목적

  • 기상 상태와 질병 발생의 상관관계 분석
  • 검색 트렌드와 실제 질병 발생 통계 간 유사성 검토
  • 기후 기반 질병 경보 체계 설계 가능성 타진

기상 상태에 따른 질병 유행 여부 파악:

  • 기상 상태와 질병 관련 키워드의 관련성을 분석하기
  • 키워드(식중독, 인후염 등) 검색이 많아지면 실제 질병 발생이 많아지는지를 검토: 해당 검색어 트랜드와 질병 데이터 비교
  • 기상 데이터와 질병 발생 데이터 그리고 검색 트랜드를 모아서 기상 상태를 기반으로 해당 질병 주의!!!
  • 기상 변화에 따라서 주의해야할 질병을 국민들에게 미리 알릴 수 있음

프로젝트 진행 순서

  1. 프로젝트 기획 및 주제 정의
  2. 데이터 수집 및 정제
  3. 상관 분석 및 시각화
  4. 연령별/시기별 질병 트렌드 분석
  5. 경보 모델 초안 및 예측 도출

사용 데이터

구분 출처 세부 내용
기상 데이터 기상청 기상자료개방포털 지역별 일별 기온, 습도, 일교차
대기질 데이터 에어코리아 PM10, PM2.5 등 미세먼지 농도
질병 통계 보건의료빅데이터개방시스템 연령대별 장염 환자 수
검색 트렌드 네이버 데이터랩 / Google Trends 질병 관련 키워드의 월별 검색량

프로젝트 구조

데이터 수집 (data_collect/)

  • Google Trends: pytrends를 활용한 질병 관련 검색 트렌드 수집
  • Naver Trends: 네이버 데이터랩 API를 통한 국내 검색 트렌드 수집
  • 기상 데이터: Selenium을 활용한 기상청 데이터 스크래핑

데이터베이스 업로드 (database_upload/)

  • 수집된 데이터를 MySQL 데이터베이스에 체계적으로 저장
  • 기상 데이터, 대기질 데이터, 검색 트렌드 데이터 통합 관리
  • DB 연결 및 쿼리 함수 모듈화 (db_function.py)

데이터 분석 (data_analysis/)

  • 장염 분석: 기상 변수와 장염 발생의 상관관계 분석
  • 식중독 분석: 일교차와 식중독 관련 감염병의 상관관계 분석
  • 동상 분석: 저온 환경과 동상 발생 패턴 분석
  • 상관관계 분석: 다양한 기상 변수와 질병 발생 간의 종합 분석

주요 참고 링크


프로젝트 결과 및 자료

1. 장염 분석 결과

검색 트렌드와 실제 환자 수의 상관관계

  • 네이버 검색 트렌드와 실제 장염 환자 수의 변화 패턴이 매우 유사
    • 상승폭과 하강 시기가 일치하여 예측 지표로서의 가능성 확인
  • 구글 검색 트렌드도 환자 수와 유사한 패턴을 보이나, 네이버보다는 일관성이 다소 낮음
  • 검색 트렌드 데이터를 활용한 조기 경보 시스템의 타당성 입증

기상 변수와 장염 발생의 상관관계

  • 일교차(-0.66): 음의 상관관계로 일교차가 작을수록 환자 수 증가
  • 최저 습도(0.50): 양의 상관관계로 최저 습도가 높을수록 환자 수 증가
  • 온도 및 습도가 극값(변곡점)에 도달하는 시점에서 환자 수 급증 현상 관측
  • 여름철 고온다습 환경과 겨울철 환경 변화가 장염 발생에 영향

연령별 장염 발생 패턴

  • 0~9세 아동층에서 장염 환자 수가 압도적으로 많음
  • 연령이 증가할수록 장염 발생률이 감소하는 경향
  • 2024년 1월: 최근 5년간 최대 환자 수 기록 (708,131명)
  • 2020년 3월: 최근 5년간 최소 환자 수 기록 (287,005명, COVID-19 영향 추정)
  • 계절별로는 **여름(7-8월)**과 겨울(1월) 에 환자 수가 크게 증가

2. 식중독 관련 감염병 분석

네이버 트렌드와 환자 수의 상관관계

  • 식중독 검색 트렌드와 실제 환자 수가 유사한 계절적 패턴을 보임
  • 여름철(6-8월)에 검색량과 환자 수가 동시에 급증

일교차와의 상관관계

  • 서울 지역 데이터 기준으로 일교차와 식중독 발생 패턴 분석
  • 일교차가 큰 **봄철(4-5월)**과 가을철에 환자 수 증가 경향
  • 여름철에는 일교차가 작아도 고온으로 인한 환자 수 증가

3. 결론

  • 0~9세 아동층이 장염 발생에 가장 취약
  • 기상 변수(일교차, 습도 등)가 질병 발생에 유의미한 영향
  • 구글보다는 네이버 검색 트렌드가 국내 질병 발생 예측에 더 적합

4. 예측 및 제안

HealthCasting 경보 시스템

  1. 검색 트렌드 기반 조기 경보

    • 네이버 검색 트렌드를 실시간 모니터링하여 질병 유행 1개월 전 예측
    • 특정 임계값 초과 시 국민 건강 주의보 발령
  2. 기상 조건 기반 위험도 평가

    • 일교차, 습도 등 기상 변수를 활용한 질병 발생 위험도 계산
    • 기상청 예보 데이터와 연계한 사전 경보 시스템
  3. 연령별 맞춤형 경보

    • 0~9세 아동층 대상 장염 집중 관리
    • 연령대별 취약 질병에 대한 차별화된 경보 제공
  4. 2025년 전망

    • 과거 데이터 패턴 분석 결과, 2025년 1월 장염 재유행 가능성 높음
    • 여름철(7-8월) 장염 및 식중독 대비 필요
    • 보건의 날(4월 7일) 행사와 연계한 국민 건강 캠페인 가능

향후 과제

단기 목표

  • 질병 범위 확대: 식중독, 인후염, 독감 등 추가 질병군으로 분석 확장
  • 지역별 분석: 전국 단위 분석에서 시/도별 세분화된 경보 체계 구축
  • 경보 임계값 설정: 통계적 기법을 활용한 과학적 경보 기준 수립

중장기 목표

  • 실시간 모니터링 시스템: 자동화된 데이터 수집 및 분석 파이프라인 구축
  • 시각화 대시보드: 일반 국민이 쉽게 이해할 수 있는 인터랙티브 웹 대시보드 개발
  • 예측 모델 고도화: 머신러닝/딥러닝 기반 질병 발생 예측 모델 개발
  • 모바일 알림 서비스: 사용자 위치 및 연령대 기반 맞춤형 건강 경보 푸시 알림
  • 공공 데이터 API 제공: 다른 연구자 및 기관이 활용할 수 있는 오픈 API 개발

기술적 개선 사항

  • SQLAlchemy를 활용한 데이터베이스 연결 개선
  • 데이터 파이프라인 자동화 (Apache Airflow 등)
  • 클라우드 기반 인프라 구축 (AWS, GCP)
  • CI/CD 파이프라인 구축

About

검색 트렌드와 함께 보는 건강 경보 체계

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%