TAGS
3D
컴퓨터 비전
객체위치
가림
이미지
물체 간의 정확한 거리식별
한 장의 이미지에서 공간정보 이해를 돕기 위한 데이터셋을 구축하는 프로젝트입니다. 이미지 상의 물체 간 거리를 파악해 자율주행, 이미지 편집 등 다양한 분야에 활용할 수 있는 컴퓨터 비전 분야 연구의 일환입니다. 최근 학습 기반 접근 방식이 성과를 내고 있지만, 영상의 픽셀 간의 정확한 거리 예측에만 초점을 두고 있어, 거리 측정의 오류가 발생하고 있습니다.
아래의 (b)이미지는 (a)이미지를 세계 최고 수준의 거리 추정 방법인 MiDaS v2 네크워크를 적용한 결과입니다. 그러나 사람의 몸과 머리의 거리를 다르게 인식하는 오류가 발생했음을 알 수 있습니다. 비전랩은 픽셀의 정확도 보다 물체의 단위별로 정확도를 정의하여 개선된 딥러닝 모델을 만드는 것을 목표로 하였습니다.
셀렉트스타의 290만개의 이미지 라벨링을 통해 새롭게 제작한 InstaOrder 데이터셋의 정보를 활용한 네트워크가 기존 픽셀별 거리 예측 네트워크의 성능 향상에 도움이 됨을 입증하였습니다.
아래의 (c)이미지는 InstaOrder 데이터셋을 이용해 학습시킨 네트워크가 예측한 거리 맵입니다. (b)는 픽셀 단위로 집중하기에 사람 머리에 대해 잘못된 깊이(depth)를 추정했지만, (c)는 물체 단위의 정보를 알기에 올바르게 예측했습니다.
About
세계적으로 권위 있는 컴퓨터 비전 연구를 함께합니다.
셀렉트스타는 더욱 스마트한 인공지능을 위한 고품질 학습 데이터를 제공합니다. 본 데이터셋은 셀렉트스타가 주최한 인공지능 데이터셋 지원사업의 일환으로, POSTECH과 협업하여 무료로 구축하였습니다.
POSTECH은 우리나라가 아직 선진국들의 기술을 빠르게 따라가던 시기, ‘세계 과학기술을 선도할 수 있는 대학이 우리에게도 필요하다’는 정신 아래 설립된 국내 최초의 연구중심대학입니다.
포항공대의 컴퓨터 비전 연구실의 조민수, 곽수하, 박재식 교수 등은 visual correspondence, metric learning, GAN, 3D vision 등의 연구를 진행하며 세계적으로 가장 권위 있는 컴퓨터 비전 학회 ‘톱3’로 꼽히는 CVPR(Computer Vision and Pattern Recognition), ICCV(International Conference on Computer Vision), ECCV(European Conference on Computer Vision)에서 매년 주목받는 연구를 발표하고 있습니다.
프로젝트 진행 소감
“저희가 희망한 데이터셋의 구축량이 많은 편이었지만, 셀렉트스타의 체계적인 플랫폼 덕분에 양질의 데이터를 빠른 시간내에 수집할 수 있었습니다. 크라우드 워커를 위한 가이드라인을 꼼꼼하고 이해하기 쉽게 실제 예시들과 함께 작성해주셔서 작업 품질에도 큰 도움을 주었습니다. 특히, 저희 프로젝트를 전담해주신 프로젝트 매니저께서 진행 상황을 꼼꼼히 관리해 주셨으며, 데이터셋의 편향성을 막아주는 스파이 제도* 덕분에 양질의 데이터를 얻을 수 있었습니다. 이 글을 빌려 저희 연구에 큰 도움을 준 셀렉트스타에 깊은 감사의 인사를 드립니다.”
*:스파이 제도는 셀렉트스타의 작업자 모니터링 시스템입니다. 라벨링 정확도가 낮은 작업자는 '스파이'로 분류되며, 특정 업무나 프로젝트 참여에 제한이 생깁니다.
데이터셋 스펙
- 조합 개수 : 1,465,566개 (상대 위치&멀티레인지, 가림정보 각각)
- SUM(사진 내 객체*C*2)= 1,465,566 객체 조합
- img_file_name: COCO DATASET 2017 TRAIN 및 VALIDATION 파일의 `img_id`_`object1_id`_
`object2_id`.png - object1_id : 왼쪽 객체 / object2_id : 오른쪽 객체
- 다음의 경우 object에서 제외함
- 한 사진에 객체 하나만 존재하는 경우
- area <= 600
- iscrowd = 1
- 다음의 경우 사진 내 object 중 10개를 랜덤으로 선택하여 진행
- 한 사진에 object가 10개를 초과하는 경우
- count
해당 데이터가 결정되기까지 참여한 유저 수
데이터 수집 및 가공 방법
본 데이터셋에는 일상 사진 10만장에 물체의 종류 간의 기하학적 순서를 나타내는 290만개에 대한 라벨이 있습니다.
이 과정에서 비전랩 연구팀은 아래 그림과 같이 가리는 물체/ 가려진 물체를 식별하는 occlusion order, 물체 간 거리 순서를 설명하는 depth order, 그리고 데이터셋의 유용함을 보이기 위해 새로운 딥러닝 네트워크를 제안하였습니다.
셀렉트스타의 크라우드소싱 플랫폼 '캐시미션(앱)'에서 크라우드 유저들이 뉴스 카테고리 분류하기 미션을 직접 참여하여 일부 데이터의 수집 및 가공을 진행했습니다.
- coco dataset 이미지 내에 있는 object들 2개 조합으로 나누기
- 이미지 내에 n개가 있다면 nC2개로 쪼개기
- 만약 이미지 내에 객체가 4개 -> 4C2 => 6개 조합으로 나눠짐
- 원본 이미지 오른쪽에 2개 객체 위치 표시 및 각 객체 이름 기입
Data Collection
상대위치 + 멀티레인지 데이터
셀렉트스타의 크라우드소싱 플랫폼 '캐시미션(웹,앱)'에서 크라우드 유저들이‘누가 더 앞에 있을까?’ 미션을 직접 참여하여 데이터의 수집 및 가공을 진행했습니다.
캐시미션 가이드 다운로드 : PDF
Sample Data
[ { "img_file_name": "9999_143338_400807.png", "img_file_url": "https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/9999_143338_400807.png", "multi_range_ox": true, "geometric_depth": "A<B", "count": 2 }, { "img_file_name": "9999_163526_137336.png", "img_file_url": "https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/9999_163526_137336.png", "multi_range_ox": false, "geometric_depth": "B<A", "count": 2 }, { "img_file_name": "9999_163526_138747.png", "img_file_url": "https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/9999_163526_138747.png", "multi_range_ox": false, "geometric_depth": "B<A", "count": 2 }, { "img_file_name": "9999_163526_143338.png", "img_file_url": "https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/9999_163526_143338.png", "multi_range_ox": false, "geometric_depth": "B<A", "count": 2 }, { "img_file_name": "9999_163526_201728.png", "img_file_url": "https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/9999_163526_201728.png", "multi_range_ox": false, "geometric_depth": "B<A", "count": 2 },....--
- img_file_name
: 순서대로 img_id__object1id(왼쪽)__object2id(오른쪽).png - multi_range_ox
: true -> 멀티레인지 개념에 포함
false -> 멀티레인지 아님 - geometric_depth
: A<B : A가 더 앞에있음
B<A : B가 더 앞에있음
A=B : 같은 위치에 존재함 - count
: 해당 결정이 내려지기까지 참여한 유저 수
Data Collection
가림 정보 데이터
셀렉트스타의 크라우드소싱 플랫폼 '캐시미션(웹,앱)'에서 크라우드 유저들이'가림 정도 파악하기' 미션을 직접 참여하여 데이터의 수집 및 가공을 진행했습니다.
캐시미션 가이드 다운로드 : PDF
Sample Data
[ {'img_file_name': '498295_1265282_685979.png', {'img_file_name': '498337_2022230_2014026.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498337_2022230_2014026.png', 'semantic_depth': None, 'count': 3}, {'img_file_name': '498339_1270164_1795559.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1270164_1795559.png', 'semantic_depth': 'A<B', 'count': 3}, {'img_file_name': '498339_1680534_1270164.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1680534_1270164.png', 'semantic_depth': None, 'count': 2}, {'img_file_name': '498339_1680534_1275905.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1680534_1275905.png', 'semantic_depth': None, 'count': 2}, {'img_file_name': '498339_1680534_1795559.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1680534_1795559.png', 'semantic_depth': None, 'count': 2}, {'img_file_name': '498339_1680534_2002662.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1680534_2002662.png', 'semantic_depth': None, 'count': 2}, {'img_file_name': '498339_1693543_1263279.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1693543_1263279.png', 'semantic_depth': 'B<A', 'count': 2}, {'img_file_name': '498339_1693543_1267264.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1693543_1267264.png', 'semantic_depth': None, 'count': 2}, {'img_file_name': '498339_1693543_1270164.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1693543_1270164.png', 'semantic_depth': None, 'count': 2}, ...- [{'img_file_name': '498295_1265282_685979.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498295_1265282_685979.png', 'semantic_depth': 'A<b& B<A', 'count': 2},
{'img_file_name': '498337_2022230_2014026.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498337_2022230_2014026.png', 'semantic_depth': None, 'count': 3}, {'img_file_name': '498339_1270164_1795559.png', 'img_file_url': 'https://cashmission-inputs.s3.ap-northeast-2.amazonaws.com/2000/1/498339_1270164_1795559.png', 'semantic_depth': 'A<B', 'count': 3}, {'img_file_name': ...
- A<B : A가 B를 가림
- B<A : B가 A를 가림
- A<B & B<A : A와 B가 서로 가림
- None : 가림 관계 없음
- INVALID : 작업 불가 대상 (ex. 원본 이미지가 콜라주 형태, 같은 대상이 서로 다르게 표현됨 등)
활용분야
3차원(3D) 정보 인지가 필요한 분야
CC BY-SA
복사, 배포 및 재가공 또는 2차 저작물을 만들 수 있으며, 반드시 저작자 및 출처를 표기하고 동일한 라이센스를 적용해야합니다.
https://creativecommons.org/licenses/by-sa/3.0/deed.en