Cache-Control: max-age=31536000 데이터 라벨링, 머신러닝에 어떤 역할을 하는가
본문 바로가기
  • 다양한 이야기를 들려드립니다.
  • 다양한 이야기를 들려드립니다.
과학스토리

데이터 라벨링, 머신러닝에 어떤 역할을 하는가

by 한-스토리 2023. 10. 16.

 

 

오늘은 머신러닝에서 필수적으로 따라다니는 용어인,

데이터 라벨링에 대해 알아보겠습니다.

 


 

머신러닝이란?

 

4차산업혁명명 시대에서 인공지능은 이제 우리 삶에 너무도 깊이 들어오고 있습니다.

인공지능(AI) 하면 ChatGPT가 떠오르기도 하고 인공지능 스피커라던가 챗봇 등 다양한 어플리케이션을 떠올리기도 하지만

기술적으로는 가장먼저 머신러닝과 딥러닝이 떠오릅니다.

 

이 중 머신러닝이란, 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야입니다. 

쉽게 말하면, 사람이 데이터를 입력하면 컴퓨터가 스스로 판단해서 결과를 도출하는 시스템을 말합니다.

 

 

이전의 인공지능 개발에서는 수많은 데이터들을 하나하나 수작업으로 직접 입력해야 했기 때문에

그만큼 많은 시간과 비용이 들었다면, 머신러닝 시스템에서는 컴퓨터가 스스로 데이터를 분석하고,

그 결과를 스스로 학습하여 그 결과를 바탕으로 어떤 판단을 하게 됩니다.

 

즉, 머신러닝이란 통계학과 깊은 관련이 있으며 양질의 데이터를 많이 보유할수록 그 결과가 정확해지게 됩니다.

 

그래서 빅데이터라는 용어 또한 머신러닝 분야에서 매우 많이 등장하는 용어이기도 하죠.

 

데이터에 정답을 매겨 계산하고, 오류를 줄여나가는 방법으로 수정하고. 이러한 과정을 계속 반복함으로 인해

점차 정확도를 올려가는 과정을 학습이라 부르며, 학습 결과를 응용하는 기술을 우리는 머신러닝이라 합니다.

 

 

 

 

머신러닝 알고리즘 

 

머신러닝은 크게 지도학습, 비지도학습, 강화학습 세 가지로 나눌 수 있습니다.

개와 고양이를 구분하는 문제를 학습한다고 했을 때, 지도학습에서는 

각 사진에서 개와 고양이의 특징점을 찾아 매칭시킨 후 정답에 도출하게 됩니다.

 

비지도학습은 말 그대로 정답이 없는 학습방법을 말합니다.

어떠한 목표, 목적 없이 변수 간의 관계를 파악하는 것이죠.

이미지 인식 등 다양한 분야에 활용되고 있으며 특히 군집화 작업에 많이 사용되는 기법입니다.

 

강화학습이란, 주어진 환경 내에서 최적의 선택을 하도록 유도하며, 이를 통해 보상을 얻게 되면

다음 상황에서도 같은 결정을 반복하도록 설계되어 있습니다.

 

출처 : https://live.lge.co.kr/live_with_ai_01

 

머신러닝의 작동 원리를 요약하면 아래와 같이 정리해볼 수 있습니다.

 

  1. 데이터 수집 : 데이터를 수집하고 이 데이터를 학습에 활용할 수 있는 형태로 가공

  2. 모델 선택 : 문제에 맞는 모델을 선택하고 데이터에서 패턴을 찾도록 학습.

  3. 학습 : 학습 데이터를 사용하여 데이터의 패턴을 학습. 학습 과정에서 입력 데이터와 출력 데이터 간의 관계를 파악하고 모델 내의                        매개변수를 조정하여 최적의 예측을 수행.

  4. 예측 : 새로운 입력 데이터에 대한 예측을 수행.

  5. 모델 평가 : 모델이 실제 데이터에 대해 얼마나 정확하게 예측하는지 측정

  6. 모델 최적화

 

 

 

 

데이터 라벨링

 

위에서 살펴본것처럼 머신러닝에서는 학습시키기 위한 데이터가 중요합니다.

이러한 데이터를 머신러닝에 인식시킬 수 있도록 가공하는 것을 데이터 라벨링(data labeling)이라고 합니다.

 

 데이터라벨링을 통해 모델은 입력 데이터와 레이블 간의 관계를 학습하게 되며 이를 통해 예측을 수행하게 됩니다.

라벨링된 데이터가 충분히 많고 정확하다면 인공지능의 성능 자체가 좋아질 수 있는 것이죠.

 

따라서 데이터 라벨링은 결국 머신러닝의 결과에 매우 중요한 요소입니다.

 

 

 

위 사진과 같은 이미지에서 무엇이 보이나요?

 

노트북, 휴대폰, 태블릿, 노트, 게산기, 안경, 돋보기 등의 물건들이 보이죠?

 

하지만 이 이미지를 기계한테 보여주고 이 사진속에 어떤 물건들이 있는지 알려달라고 하면 알려줄 수 있을까요?

 

여기서 머신러닝의 지도학습을 위한 데이터 라벨링이 필요해집니다.

각 요소별 영역을 구분하고, 영역별로 여기가 노트북이야. 여기가 휴대폰이야. 

이렇게 정답을 입력해주는 작업이 바로 데이터라벨링이며, 

이러한 데이터라벨링을 쌓아가는 것을 data set을 만든다고 표현하기도 합니다.

 

정확도를 높이기 위해 수많은 데이터라벨링 작업이 필요한데,

이는 사람이 직접 하다보니 아무래도 한계가 있을 수밖에 없습니다.

 

그래서 기업에서는 아르바이트를 고용하기도 하고, 

국책 과제에서 그 비용을 지원해주는 경우도 있습니다.

 

 


 

 

정확고 양 많은 데이터 라벨링은 결국 머신러닝의 결과에 매우 큰 역할을 하다 보니,

중요하게 생각할 수밖에 없습니다.

다음에는 데이터라벨링을 통한 머신러닝이 실제로 어떤 분야에 사용되는지도 정리해보도록 하겠습니다.