2장. 생성형 AI와 사회 관련 이슈

생성형 AI의 개발과 활용은 다양한 사회적 층위에서 새로운 문제를 발생시키거나 기존 문제를 재생산합니다. 이 장에서는 생성형 AI와 노동, 환경, 보안 문제 등 기술과 사회의 관계에 있어 함께 고민해보면 좋을 몇 가지 논의점을 소개합니다.

생성형 AI 구축의 저임금 노동 착취 구조

생성형 AI 도구는 단순히 ‘많은 데이터를 연산하여 산출(학습)한 모델’로 완성되지 않습니다. 많은 경우 데이터를 유용한 형태로 정리하는 데이터 라벨링 작업이 필요하며, 완성된 모델은 학습 데이터 속 편향이나 오류, 혐오표현 등을 반영하고 있기에 실제 서비스를 제공하려면 부적합한 결과물 산출을 최소화하는 미세조정(fine-tuning) 작업이 필요합니다. 미세조정 역시 일종의 데이터 라벨링으로, 많은 사람이 투입되는 대규모 미세노동(microwork) 형태를 취합니다. 

데이터 라벨링 노동은 미세노동 특유의 불안정성과 혐오표현 등을 마주해야 하는 정신적 부담, 많은 경우 노동력이 싼 남반구 지역으로 작업을 외주화하는 구조 등을 특징으로 합니다. 이같은 데이터 라벨링 노동 과정은 복잡한 하청 구조를 거치고 기업비밀을 이유로 은폐되기 때문에 그 현황을 정확히 파악하기도 어렵습니다. 즉 생성형 AI 도구의 생산 과정에는 복합적인 노동 착취 기제가 깔려 있다는 점에서 생성형 AI 활용은 그 생산 과정을 둘러싼 윤리적 문제를 던집니다.

자동화, 일자리 대체, 그리고 생산성

생성형 AI는 흔히 업무 자동화 및 재편을 통해 생산성을 향상시켜 주는 기술로 인식됩니다. 이는 일자리 대체 및 기존 노동자의 역할 축소로 이어질 위험이 있습니다. 사회 전반적으로도 그렇지만 개별 조직 차원에서도 생성형 AI와 같은 자동화 기술 도입은 기존 노동 방식에 변화를 초래하며, 인력 축소 등 긴축 경영과 맞물릴 여지를 만들게 됩니다. 기술적 전환 과정에서 노동권을 취약하게 하거나 향상된 생산성의 결실을 일부가 독점하지 않으려면 어떻게 해야 할까요? 재교육 및 공정한 분배 방안 등을 우선 고민해볼 필요가 있겠습니다. 또한 조직에서 생성형 AI를 도입하는 과정에서 각 이해관계자가 의사결정에 관여할 수 있는 참여적 거버넌스가 요청됩니다.

조직 내의 생성형 AI 도입은 조직 밖에도 영향을 미칠 수 있습니다. 본 가이드 준비 과정에서 진행한 워크숍 참여자는 소속 단체에서 생성형 AI를 활용해 집회용 음악을 제작한 사례를 소개했습니다. AI 생성 음악을 이용할 경우 금전적·시간적 비용이 줄어드는 효과를 기대할 수 있지만, 그러지 않았더라면 문화예술 노동자에게 의뢰했을 일감을 대체한 것으로 해석할 수도 있을텐데요. 예전이라면 외부에 맡겼을 포스터 디자인·일러스트 등을 생성형 AI를 활용해 내부 담당자가 구현하는 경우도 흔해졌습니다. 조직 차원에서의 생산성 도모가 노동 생태계 및 주변 네트워크에 부정적 영향을 미치는 긴장관계를 볼 수 있습니다.

한편 생성형 AI가 생산성에 꼭 기여하는지 또한 비판적으로 검토할 필요가 있습니다. 반복적인 작업이나 아이디어 탐색 과정에서 속도를 높이는 도구가 될 수 있지만, 그러기 위해서는 AI로 생성한 결과의 정확성 검증, 편향 또는 오류 수정, 도구 활용 역량 습득 등에 추가 시간과 자원이 투입되어야 합니다. 기술 도입이 구성원의 역량 계발과 상충하지 않도록 업무 구조를 재편하는 노력 또한 필요할 것입니다. 바꿔 말하면 조직의 디지털 전환 과정의 일환으로 생성형 AI를 이해할 필요가 있습니다. 생성형 AI에 투자한 기업 중 95%가 그로 인한 조직 차원의 순익을 내지 못하고 있다는 설문 사례에서 드러나듯 이 전환은 간단치 않습니다.

생성형 AI 모델을 제작하려면 막대한 양의 데이터를 확보해야 합니다. 웹상에 게시된 각종 글, 이미지, 코드 등뿐만 아니라 단행본 등 출판물을 직접 활용하기도 합니다. 이 과정에서 AI 기업들이 저작권자의 명시적 동의를 구하지도 보상을 제공하지도 않는 사례가 빈번합니다. 이러한 행태가 ‘공정 이용’이라는 산업계의 관점과 창작자 권리 침해라는 관점이 대립하는 가운데 TDM(Text and Data Mining)이라고도 표현하는, 저작물의 AI 학습 데이터 활용의 허용 및 규제에 관한 입법적 논의도 진행 중입니다. 법제도 수립과 별개로 학습 데이터 관련 저작권 소송도 다수 진행 중이며, 이들 소송의 향방 역시 중요한 참고점이 될 수 있습니다.

생성형 AI 이용자 입장에서는 기존 저작물과 같거나 유사한 산출물을 만들어내어 타인의 저작권을 침해할 위험이 존재하기에, 특히 공개용 콘텐츠에 생성형 AI를 이용할 경우 저작권 침해가 일어나지 않도록 추가로 유의해야 합니다. 이용자로서의 법적 리스크보다 좀 더 넓은 상황도 볼까요. 생성형 AI는 저작물을 활용하여 구축되었을 뿐만 아니라, 창작노동자와 시장에서 경쟁함으로써 이들을 경제적으로 위협하기도 합니다. 생성형 AI가 창작자의 동의나 보상 없이 노동이 착취되는 구조에 기반하고 있다는 점에서 윤리적·정치경제적 문제를 던지기도 하는 대목입니다. 우리가 사용하는 생성형 AI의 데이터 수집과 생성 과정은 투명하며, 공정한 보상 체계가 자리잡고 있나요?

생성형 AI의 환경 비용

생성형 AI는 환경적으로 비싼 기술입니다. 모델 학습 단계에서 대규모 컴퓨팅 자원이 소요되며, 이 과정에서 발생하는 탄소 배출량은 모델 하나당 수천 톤에 달하기도 합니다. 데이터센터의 냉각 시스템을 가동하기 위해 대량의 담수가 필요하고, GPU 등 하드웨어 생산·폐기 과정에서 희토류 채굴과 전자폐기물 문제가 수반됩니다. 데이터센터를 가동하기 위한 전력망 수요에 힘입어 화석 연료 및 원자력 발전이 힘을 얻고, AI 관련 실적을 내세우는 빅테크 기업들이 탄소배출 감축 등 ESG 목표에서 발을 빼는 사례도 생기고 있습니다.

일각에서는 환경비용이 과장되었다거나 기술 발전에 따라 개선될 것이라고 보기도 합니다. 설령 그렇다 해도 점점 많은 서비스에 생성형 AI가 활용되고 심지어 마이크로소프트 코파일럿처럼 운영체제 차원에서 상시, 수시로 생성형 AI를 구동하는 등 사용 규모 자체가 급증하는 추세를 감안하면 환경비용 문제를 가볍게 보기는 어렵습니다. 재생에너지 기반 데이터센터 전환이나 효율적 알고리즘 개발(경량화 등) 등 기술적 해결책이 모색되고 있으나, 기업의 자발적 노력에 의존하는 한계가 있습니다. 그런가 하면 더 많은 자원을 투입해서 AI 기술을 더 발전시키면 지구 온난화 등의 난제를 해결할 수 있고 지금의 환경 비용도 상쇄할 수 있을 것이라는 주장도 있지만, 과학적 전망보단 낭만적 기대에 가까운 것 같습니다.

생성형 AI의 간접적 환경 영향을 고려하고, 기후위기 시대에 환경적 책임을 다하려면 어떻게 해야 할까요? 현재로서는 환경비용을 파악하는 것조차 어렵습니다. 생성형 AI 구축 및 활용 과정에서의 탄소배출 등 환경비용은 기업 비밀 등의 사유로 잘 공개되지 않기 때문입니다. 이 정보를 공개하도록 요구하는 것에서 출발해볼 수 있겠습니다. 또한 AI 산업, 나아가 사회가 AI로 인해 본 이득을 기후위기 대응에 재투자하는 구조적 논의 역시 요청됩니다.

차별과 편향 문제

생성형 AI 이전부터 각종 인공지능 및 자동화 시스템은 불투명한 방식으로 기존 편향을 재생산해 왔습니다. 과거 데이터를 학습하여 만들어진 생성형 AI 역시 사회 권력을 반영하는 편향을 재생산합니다. 예를 들어 특정 직군이나 문화적 맥락을 특정 성별, 인종, 계층과 결부하는 사회적 편향이 AI 생성 콘텐츠에서 표현될 수 있고 이는 채용, 콘텐츠 추천, 법률 판결 등 각종 분야에서 불공정한 결과로 이어질 수 있습니다. 원칙적으로 채용, 판결 등 사람에게 큰 영향을 미치는 중요한 의사결정에는 생성형 AI를 활용하지 않아야 할 것입니다. 소수자 집단을 대상화한 혐오표현이나 고정관념 또한 위험 요소가 됩니다.

공론장과 정보 생태계

생성형 AI는 공론장과 정보 생태계에 위험으로 작용할 수 있습니다. 인간이 만든 것과 흡사해 보이는 글·그림 등을 자동적으로 생성하는 시스템의 보편화는 사회에 어떤 작용을 할까요?

우선 허위정보 생산에 필요한 비용이 생성형 AI로 인해 획기적으로 감소한다는 점을 생각해볼 수 있습니다. 텍스트, 이미지뿐만 아니라 상대적으로 고비용 매체인 동영상 역시도 ‘실제’와 생성물 사이의 구분이 어려워지고 있는데요. 악의적으로, 혹은 경제적 이윤을 위해 허위정보를 양산하는 것이 쉬워지는 만큼 ‘사실’의 위치는 좁아지고, 사실 검증에 들어가는 사회적 비용은 증가합니다.

확률 기반으로 작동하는 생성형 AI 시스템이 갖는 태생적 오류 가능성 또한 문제가 됩니다. 특히 자료 조사, 문서 작성 등 지식 관련 기능에 AI 시스템이 활용되는 추세는 곧 우리가 지식을 생산하고 습득하는 과정 전반에 해당 오류의 위험이 스며든다는 것을 뜻합니다.

정보를 소비하는 입장에서는 생성형 AI가 보편화할 수록 역설적으로 정확한 사실을 접하기 위한 비용이 늘어날 수도 있으며, 메시지를 발신하는 입장에서는 값싸게 생산되는 (허위·저품질일 수 있는) 정보와 사람들의 관심을 두고 경쟁하게 되는 문제가 생길 수 있습니다.

딥페이크

생성형 AI 기술의 대표적인 오용 사례로는 딥페이크를 꼽을 수 있습니다. 딥페이크는 누군가가 하지 않은 말이나 행동을 한 것처럼 묘사하는 합성물로, 특히 개인을 상대로 한 성착취 등 폭력이나 사기 등에 활용될 위험이 큽니다. 이미 한국에서 조직적인 딥페이크 성범죄가 큰 사회적 문제로 대두된 바 있습니다. 이러한 범죄는 생성형 AI 기술 이전에도 존재했지만 생성형 AI 기술은 해당 범죄를 훨씬 쉽게 만들며 처벌과 예방, 기술적 대응, 피해자 회복 등 각종 영역에서 새로운 문제를 발생시킵니다.

보안과 프라이버시

생성형 AI 모델의 성능은 학습 데이터의 양과 (매개변수의 개수로 표현되는) 모델 크기가 커질 수록 증가하는 경향을 보여왔습니다. 그렇기 때문에 생성형 AI 산업은 최대한 많은 데이터의 수집을 추구하며, 그 과정에서 데이터의 적법성이나 품질 관리는 상대적으로 등한시되어 왔습니다. 온라인에 공개된 각종 개인정보를 수집하여 생성형 AI 구축에 활용하는 행태는 프라이버시에 대한 위협을 제기하는 한편, 개인정보 수집을 최소화해야 한다는 개인정보보호 원칙에도 위배될 소지가 있습니다. 나아가 이렇게 수집된 정보는 생성형 모델의 출력을 통해 다른 사람에게 노출될 위험이 있습니다. 

모델 구축(학습) 단계뿐만 아니라 활용 단계에서도 데이터 수집이 이루어질 수 있습니다. 챗지피티 등의 서비스에 입력하는 질문 내역 등이 대표적인 예입니다. 특히 이런 경우 개인정보뿐만 아니라 민감한 업무 자료 등 역시도 보안 위협의 대상이 됩니다. 또한 윈도우 OS에 탑재된 코파일럿(Copilot)이나 메타의 AI 안경 등의 사례에서 볼 수 있는 것처럼, 이같은 데이터 수집이 이루어지는 지점은 특정 웹 서비스를 넘어 사용자의 컴퓨팅 환경 전반과 일상 공간으로 확장하는 추세라는 점에서 보안 위험이 발생할 수 있는 지점 또한 늘어난다고 볼 수 있습니다.