디지털 숫자 데이터셋

디지털 기기에서 표시되는 디지털 숫자 사진의 숫자 인식 해당 영역 데이터셋

TAGS
숫자
수치
Bounding Box
이미지
디지털 기기 이미지 및 해당 기기의 수치 정보를 인식

“디지털 숫자 데이터셋 구축 프로젝트”는 4종의 기기(체온계, 체중계, 혈압계, 혈당계) 화면에 등장하는 수치 및 디스플레이 정보를 수집 및 가공한 프로젝트입니다. 본 프로젝트를 통해 디지털 기기 이미지 및 해당 기기의 수치 정보를 인식할 수 있는 모델을 개발할 수 있습니다.

About

디자인과 머신러닝을 접목하는 연구

셀렉트스타는 더욱 스마트한 인공지능을 위한 고품질 학습 데이터를 제공합니다. 본 데이터셋은 셀렉트스타가 주최한 인공지능 데이터셋 지원사업의 일환으로, 틸더와 협업하여 무료로 구축하였습니다.

틸더는 “의료데이터의 끝없는 물결”을 일으키고 싶은 멤버들로 구성된 스타트업입니다. 헬스케어 데이터를 보다 쉽고, 효율적으로 활용할 수 있는 기술을 바탕으로 참신하고 다양한 서비스 플랫폼을 병원, 기업, 일반 대중에게 제공함으로써 건강한 사회를 실현하고자 하는 회사입니다.

본 프로젝트의 도전 과제 중 하나는 최대한 다양한 기기의 이미지를 수집하는 것이었습니다. 캐시미션의 유저군은 나이대별, 성별, 지역별로 다양하게 분포하고 있었기에 단기간 내에 다양한 기기를 빠르게 수집할 수 있었습니다. 특히 필수 가전이 아닌 혈당계, 혈압계의 수집도 원활하게 진행되었습니다. 결과적으로 캐시미션의 장점이 십분 잘 발휘된 프로젝트가 아니었나 생각됩니다.

프로젝트 진행 소감

“원격진료의 핵심은 환자 상태를 지속적으로 모니터링 할 수 있는 데이터 확보와 관리 시스템에 있습니다. 하지만 우리가 일상생활에서 흔하게 사용하는 혈압계, 혈당계, 체중계, 체온계 데이터는 원격진료를 위한 중요한 정보임에도 불구하고 단발성으로 측정한다는 특징을 갖고 있습니다.

이에 틸더는 언제, 어디서든 휴대용 의료기기의 이미지 데이터를 디지털 데이터로 변환할 수 있는 기술 개발을 목적으로 셀렉트스타와 혈압계, 혈당계, 체중계, 체온계에 대한 이미지 데이터를 확보했습니다. 확보한 휴대용 의료기기의 이미지 데이터는 흔하게 구할 수 없는 고부가가치 데이터로써 원격진료를 위한 인공지능 기술의 핵심 데이터로 활용될 것입니다.”

데이터셋 스펙

  • 체온계 이미지 1,598장 및 수치 정보가 포함된 json 파일 1,598건
  • 체중계 이미지 1,640장 및 수치 정보가 포함된 json 파일 1,640건
  • 혈당계 이미지 2,512장 및 수치 정보가 포함된 json 파일 2,512건
  • 혈압계 이미지 14,500장 및 수치, 디스플레이 좌표 정보가 포함된 json 파일 14,500건

데이터 수집 가공 방법

본 프로젝트에서 이미지 수집과 수치 정보 가공은 모두 셀렉트스타의 크라우드 소싱 플랫폼 캐시미션을 통해 진행되었습니다.

약 6,000여 명의 유저가 참여해 다양한 종류의 기기 이미지를 수집할 수 있었으며, 빠르게 수치 정보를 라벨링할 수 있었습니다.

Data Collection

셀렉트스타의 크라우드소싱 플랫폼 '캐시미션(앱)'에서 크라우드 유저들이 디지털 숫자 표시 기기 수집하기, 디지털 숫자 표시 기기 검사하기, 의료기기 숫자 라벨링 + OCR 미션을 직접 참여하여 일부 데이터의 수집 및 가공을 진행했습니다.

'캐시미션(웹)'에서 전문 가이드 팀이 작성한 크라우드 유저들의 미션 이해를 돕기 위한 가이드

Sample Data

  • 체온계

{"category": "Thermometer", "Temperature": "36.2", "tem_other1": null, "tem_other2": null, "tem_other3": null}

  • 체중계

{"category": "Scale", "Weight": "64.0", "wei_other1": null, "wei_other2": null, "wei_other3": null}

  • 혈당계

{"category": "Blood_glucose", "Glucose": "79", "date": null, "hour": "07:42:00", "temperature": null, "Day-AVG": null, "other1": null, "other2": null, "other3": null}

  • 혈압계

{"coordinates": {"x1": 0.3682997904479176, "y1": 0.18161180476730987, "x2": 0.9480834715794988, "y2": 0.7707150964812713}, 
"category": "sphygmomanometer", "sys": "101", "dia": "63", "pulse": "77", 
"hour": "14:43:00", "average": null, "other2": null, "other3": "135"}

활용분야

OCR기술을 이용한 맞춤형 개인 의료 데이터베이스

건강관리를 위한 혈압/혈당/체온 기록 서비스

CC BY-SA 

복사, 배포 및 재가공 또는 2차 저작물을 만들 수 있으며, 반드시 저작자 및 출처를 표기하고 동일한 라이센스를 적용해야합니다.
https://creativecommons.org/licenses/by-sa/3.0/deed.en

디지털 숫자 데이터셋

디지털 기기에서 표시되는 디지털 숫자 사진의 숫자 인식 해당 영역 데이터셋