<1회> 생각하는 기계의 역습: AI와 유령노동
인공지능(AI) 시대가 도래하면서 인간의 삶과 노동에도 큰 변화가 찾아왔다. 서울신문은 5회에 걸쳐 AI 뒤에 가려진 인간 노동을 심층 보도한다. AI를 학습시키고 정화시키는 사람들의 이야기를 담았다. 인간과 AI의 대립을 넘어 공존의 지혜까지 탐구했다.AI 학습의 세계 ‘데이터 라벨러’


사진은 17일 오픈AI의 챗GPT에 ‘데이터 라벨러’라는 명령어를 입력해 생성한 이미지.
“돌 지난 아기를 가르친다고 생각하면 쉬워요.”
60대 문경화씨는 은행 퇴직 후 최근 2년간 이어 온 ‘데이터 라벨링’ 업무를 육아에 빗댔다. 오감을 기르는 기초교육부터 논문 요약 등의 사고력 함양까지 인공지능(AI) 학습 과정에서 데이터 라벨러들의 손을 안 거치는 곳이 없기 때문이다. 우수한 데이터 학습으로 AI를 잘 길러 낸 데이터 라벨러는 높은 수당의 더 다양한 역할을 부여받는다. 문씨는 “대학생, 주부, 직장인까지 다양한 연령대가 겸업 혹은 전업으로 밤낮없이 AI 발전을 위해 고군분투하고 있다”고 말했다.
겸업·전업으로
‘고군분투’
언제 어디서든 원하는 만큼 업무에
대학생·주부·직장인·퇴직자 등 다양
사물 특정·수식화·학습 재료 수집도
작업 수당은 건별 30~10000원 수준문씨가 데이터 라벨링에 입문하게 된 건 퇴직을 앞두고 한 유튜브 채널에서 데이터 라벨링 소개 영상을 우연히 접하면서였다. 데이터 라벨러는 데이터를 AI가 학습 가능한 형태로 가공·분류하는 작업을 수행한다. 미래가 유망한 AI 관련 업무인 데다 언제 어디서든 본인이 원하는 시간만큼 일하고 돈을 벌 수 있다는 사실에 끌렸다. 당시에는 국내 데이터 라벨링 플랫폼 업체 크라우드웍스나 지자체 공공기관에서 진행하는 데이터 라벨러 자격증 교육이 많았다. 해당 교육 이수가 문씨 데이터 라벨링의 시작이 됐다.
처음 맡은 일은 ‘바운딩 박스’(Bounding Box·사각형 형태로 영역을 지정해 객체를 구분하는 작업) 혹은 ‘폴리곤’(Polygon·외곽선을 따라 점을 찍어 객체를 구분하는 작업) 등의 방식으로 이미지상의 사물을 특정하는 작업이었다. 구체적으로는 지도상의 바다 혹은 육지 구분, 블랙박스 화면에 나타난 차를 세단·스포츠유틸리티차량(SUV)·밴 등 유형별로 구분, 산업폐기물 유형별 구분, 사물의 특성을 색상·형태 등으로 수식하는 작업 등이었다.
주어진 키워드에 부합하는 이미지를 일상에서 촬영해 업로드하는 일도 있었다. 문씨는 “AI 학습에 재료가 되는 이미지를 수집하는 것”이라며 “노부부 등 촬영 동의를 얻기 어려운 사람의 이미지를 업로드할 때 제일 많은 수당을 받았다”고 말했다. 대부분의 작업 수당은 건별로 지급됐으며 적게는 30원, 많게는 100원까지 지급됐다. 비슷한 시기에 이 일을 시작한 주부 이모씨는 “아이들을 유치원에 보내고 틈날 때 음악을 들으며 아무 생각 없이 일할 수 있어 소일거리로 좋다”고 말했다.


문씨는 일의 능률이 오르자 사고력을 필요로 하는 작업을 찾아 나섰다. 그렇게 시작한 것이 텍스트 작업이었다. 정부 간행물이나 학술·논문에서 발췌한 1500자 내외의 글에서 핵심 내용을 담은 질의를 요약해 쓰고 답하는 일이었다. 건당 약 1만원의 수당을 받았다. 매 작업물은 작업 시간 대비 정확도에 따라 평가됐다. 긍정 평가를 받을수록 수당은 올랐고 문씨의 보람도 커졌다.
심지어 데이팅 AI 챗봇의 표현력을 기르는 작업도 했다. 문씨는 “AI가 고객이 원하는 이성상으로 말하게끔 ‘오늘 저녁은 외로워’, ‘너 없이는 안 되겠어’ 등 에로틱한 표현도 구상해 입력해야 했는데 쉽지 않아 중도 포기했다”고 말했다.
채용 공고는 크라우드웍스·아웃라이어 등 국내외 데이터 라벨링 플랫폼이나 아르바이트 구인 사이트, 데이터 라벨링 관련 카카오톡 오픈채팅방 등에서 이뤄졌다. 데이터 라벨러들은 일 시작에 앞서 작업 관리자들로부터 가이드라인 자료를 배포받은 뒤 줌 등 화상회의 플랫폼으로 구체적인 작업 방식을 숙지했다. 능률을 못 내는 데이터 라벨러는 관리자가 중간에 퇴출시키는 경우도 꽤 있었다. 우수한 작업 성과를 낸 데이터 라벨러들에게는 “다음 작업 시 함께 하자”며 러브콜을 보내기도 했다.
등록 회원만 58만명
처우는 ‘불안’
45%는 연간 1000만원 미만 수입
라벨링 플랫폼·오픈채팅방서 채용
작업 발주 기업·관리자 번호 몰라
문제 제기·동료와 공유도 어려워데이터 라벨러는 지난해 크라우드웍스 등록 회원 기준으로 58만여명이다. 종사자가 늘면서 네이버 카페 ‘데이터라벨링모임’(데라모), 커뮤니티 ‘라벨러 쉼터’ 등이 개설돼 라벨링 팁, 후기, 채용 공고 등의 정보 교류가 활발히 이뤄지고 있다. 2022년 기준 ‘라벨러 쉼터’에서 활동하는 100명의 수입 자료에 따르면 연간 1000만원 미만의 수입을 기록한 라벨러의 비중은 45%, 1000만원 이상 3600만원 미만은 50%, 3600만원 이상은 5%였다.
최근 데이터 라벨러들 사이에선 처우 문제가 자주 거론되고 있다. 근로계약서를 작성하지 않는 등 근로기준법 위반 사례가 적지 않기 때문이다. 근로 기간이 갑자기 늘어나거나 수당 지급이 지연되는 경우도 빈번하다. 김한울 IT노조 사무국장은 “일이 최근에 생기다 보니 종사자조차 자신의 일이 어떻게 분류되는지 잘 모르고, 작업 특성상 동료와 문제의식을 공유하는 것 또한 어렵다”며 “적어도 목소리를 한데 모을 수 있는 창구가 필요하다”고 말했다.
진화하는 AI에 ‘라벨링’도 고도화…진입 장벽 높아지고 양극화 현상도단순 업무 줄고 문답 작성 등 늘어
라벨러 능력따라 임금격차 불가피인공지능(AI)의 발전으로 데이터 라벨링 업무는 고도화하는 추세다. AI 지능이 인간 성인에 가까워지면서 더 높은 수준의 지식 학습이 필요해져서다. 이에 데이터 라벨러의 능력에 따라 수행 가능한 업무가 나뉘고 임금 격차도 생겨난다.
17일 서울신문 취재를 종합하면 국내외의 데이터 라벨링이 각광받기 시작한 시기는 생성형 AI 챗GPT가 등장하기 직전인 2020년 전후로 추정된다. 당시만 해도 AI 개발·운영사들이 학습용 데이터를 정제하던 시기라 이미지 처리 등 단순·반복 작업이 많았다. 하지만 AI가 발전하면서 단순 작업은 AI가 스스로 할 수 있게 됐고 해당 작업의 수당은 예전의 절반도 못 미치는 상황이다.
최근 눈에 띄는 점은 거대언어모델(LLM) 개발과 관련한 데이터 라벨링 공고가 늘었다는 점이다. 구체적으로는 특정 주제와 관련한 질의 작성 후 답하거나 글을 요약하는 등의 텍스트 작업이다. 기존 단순·반복 작업보다 수당이 높지만 일정 수준의 이해도나 창의력을 요구하다 보니 상대적으로 진입 장벽이 높다. 줌 등을 통해 실무 테스트나 면접을 보는 경우가 적지 않고 학력과 기존 업무 경력도 따진다.
20대 데이터 라벨러 최모씨는 “AI의 눈·코·입이 돼 주던 라벨링 작업이 논리적 사고를 돕는 작업으로 진화하고 있다”고 말했다.
‘라벨러 양극화’ 현상도 나타나고 있다. 능력이 떨어지는 데이터 라벨러들은 저임금의 단순 작업만 도맡고, 능력 있는 라벨러들이 고임금 작업을 독차지한다. 업계에선 기존 데이터 라벨링 일자리가 줄어든 만큼 새 유형의 일자리가 꾸준히 등장할 거란 전망이 나온다. AI업계 한 관계자는 “데이터 라벨링 자체도 전혀 생각지 못한 일”이라며 “AI의 성장 속도와 이에 따른 시장 파급력을 고려하면 일자리 창출 효과가 더 가시적일 것”이라고 말했다.
시장조사 기관 그랜드 뷰 리서치 보고서에 따르면 전 세계 데이터 수집 및 라벨링 산업 규모는 2021년 16억 7000만 달러(약 2조 4120억원)로 매년 평균 25.1%씩 성장해 2030년에는 80억 5000만 달러(11조 6290억원)에 달할 것으로 분석된다.
■기획취재팀
팀장 이창구
장진복 김중래 명종원 이성진 기자
2025-02-18 4면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지