TAGS
음성인식
받아쓰기
음성텍스트화
삶의 질을 높이기 위한 음성인증 데이터셋
다양한 음성 데이터의 수집과 가공을 통하여 더 뛰어난 성능의 음성인증 인공지능을 개발하여 사람들의 삶과 업무에 도움이되는 서비스를 제공하고자 합니다.
About
음성인식 기술을 활용한 인공지능 받아쓰기 기술
셀렉트스타는 더욱 스마트한 인공지능을 위한 고품질 학습 데이터를 제공합니다. 본 데이터셋은 셀렉트스타가 주최한 인공지능 데이터지원사업의 일환으로, 액션파워과 협업하여 무료로 구축하였습니다.
액션파워는 인공지능의 가능성을 현실화 하고자 합니다. 많은 매체에서 인공지능을 소개하며 그 잠재력을 높이 평가하지만, 아직 실생활에 도움을 주는 서비스가 많지 않습니다. 액션파워의 목표는 기술 연구와 서비스 개발을 통해 사람들의 생활을 바꾸는 인공지능 서비스를 만들어내는 것입니다.
액션파워는 '행동하는 것에 힘이 있다‘ 라는 가치 아래 음성인식, 자연어 처리 등 인공지능 기술을 자체 개발하고 관련된 서비스를 운영하는 기술 기반 스타트업입니다. 음성인식 기술은 매우 다양한 고난도의 하위 기술을 필요로 하는 어려운 기술로, 이 기술을 자체 개발하는 국내 스타트업은 거의 없습니다. 액션파워는 국내 최초로 음성인식 기술을 활용한 인공지능 받아쓰기 서비스 다글로를 출시하였으며, 자체 음성인식 기술을 보유하고 있습니다. 세계 최고의 한글 음성인식 기술을 기반으로 다글로 이외에도 사람들의 삶과 업무에 도움이 되는 다양한 서비스를 출시하는 것이 당사의 목표입니다.
다글로는 액션파워의 첫 번째 인공지능 서비스입니다. 많은 사람들이 강연내용, 통화 내용, 회의 내용 등 다양한 음성을 녹음하지만, 녹음한 내용을 다시 확인하기는 매우 어렵습니다. 음성 데이터는 검색도 불가능한데다, 다시 확인하려면 녹음한 시간만큼을 할애해서 들어보아야 하기 때문입니다. 그러나 음성을 텍스트로 바꾸면, 많은 내용을 빠르고 손쉽게 확인할 수 있습니다. 다글로는 인공지능 기술을 이용해 음성파일을 텍스트로 자동 변환해 주는 웹서비스입니다. 또한, 변환된 텍스트를 손쉽게 편집할 수 있는 편집기능도 제공하고 있습니다. 텍스트를 읽다가 특정 부분을 클릭하면 해당 부분이 재생되어 내용을 확인하기도 편리합니다. 현재 다글로의 가입자 수는 지속적으로 성장하고 있으며, 삼성물산, TWC, 국내 지자체 등 다양한 기업 및 기관에서 사용하고 있습니다.
프로젝트 진행 소감
“본 프로젝트를 통해 음성인식 정확도를 높일 수 있는 데이터를 구축하였습니다. 짧은 시간이었지만, 많은 양의 데이터를 수집할 수 있었고, 인공지능 학습에 적합한 형태로 받을 수 있어 편리하게 이용할 수 있었습니다. 구축한 데이터를 통해 많은 사람들에게 도움을 줄 수 있는 음성인식 서비스를 만들 수 있도록 노력하겠습니다.”
데이터셋 스펙
상품명 list : 1,196(set)의 음성파일
*총 1,196인의 캐시미션 유저가 1인 1set 제출
음성파일 1set 구성: 원본 텍스트 1건 — 3건의 음성(mp3) — 5tag의 텍스트 메타 데이터
* 원본 텍스트는 총 30건으로, 텍스트당 39~40인의 유저가 참여
데이터 수집 및 가공 방법
셀렉트스타의 플랫폼 캐시미션은 짧은 시간 내에 몇천 명의 다양한 배경의 유저가 참여하여 수집-가공하는 프로젝트에 특히 강력한 솔루션입니다. 본 프로젝트에서 셀렉트스타는 캐시미션의 강점을 십분 발휘하여, 2주만에 1,200여 명의 유저에게 데이터를 수집할 수 있었습니다. 셀렉트스타의 음성 데이터 수집 플랫폼은 고객이 원하는 형태의 맞춤 데이터 기획을, 유저에게는 편리한 데이터 제출 환경을 제공합니다.
- 30건의 짧은 텍스트가 input, 텍스트당 3건의 음성이 output이며, 음성 제출자 또는 제출 환경에 대한 메타 데이터 태깅, 최대한 많은 유저의 음성 샘플이 고객의 의뢰사항
- 음성파일은 분류와 검수가 가장 까다로운 데이터 타입 중 하나이기 때문에, 고객이 원하는 데이터를 얻을 수 있도록 맞춤 가이드를 위한 충분한 논의
- 캐시미션에 미션 세팅하여 음성 수집
- 소수의 검수자가 일관된 기준으로 전수 검수
Data Collection
해당 미션에서 셀렉트스타의 역할
- 목적에 맞는 데이터 수집을 위한 캐시미션 런칭에 최적화된 프로세스 설계
- data 전수 검수
Sample Data
원본 텍스트: [추운 겨울에는 따뜻한 커피와 티를 마셔야지요]
데이터: [10cm거리 녹음파일, 50cm거리 녹음파일, 100cm거리 녹음파일]
메타 데이터: [25세, 여자, 경기, 실내, 25dB~50dB]
10cm
50cm
100cm
원본 텍스트: [많고 많은 사람 중에 그대 한 사람]
데이터: [10cm거리 녹음파일, 50cm거리 녹음파일, 100cm거리 녹음파일]
메타 데이터: [25세, 남자, 경기, 실내, 25dB~50dB]
10cm
50cm
100cm
활용분야
화자인식/분리 AI 연구개발, 음성인식 기술 향상 데이터셋
음성명령어를 텍스트로 변환하는 서비스 또는 애플리케이션
CC BY-SA
복사, 배포 및 재가공 또는 2차 저작물을 만들 수 있으며, 반드시 저작자 및 출처를 표기하고 동일한 라이센스를 적용해야합니다.
https://creativecommons.org/licenses/by-sa/3.0/deed.en