LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제

BigData

LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제

IT오이시이 2025. 8. 15. 10:24

728x90

LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제

AI의 가치는 단순히 ‘데이터 투입 → AI → 가치’로 생성되지 않는다.
- 데이터 수집, 전처리, 모델링, 배포·운영 그리고 법적·윤리적 관리 등 다양한 과정이 실제 배치와 성공적인 가치 창출에 필수적이다.

1. 기업이 생각하는 AI 프로세스 (단순화된 관점)

- Data → AI → Value
- 기업들은 데이터를 입력하면 곧바로 AI가 작동해 손쉽게 비즈니스 가치(Value)를 창출한다고 여기기 쉽다.
- 이 과정에서는 중간 단계나 실제 활동들이 드러나지 않는다.

2. 실제 AI·데이터 사이클 (현실적인 관점)

- Data → Data Science → Value
- 실제로는 여러 복잡한 단계와 협업이 필요하다.

(1) Data 관리 단계

- Data 수집과 생성
  - Selection(선택)
  - Sourcing(수집)
  - Synthesis(합성)
  - 데이터를 모으고, 적합한 데이터를 선택하며, 필요시 합성하는 과정 포함

- Data 수집과 생성 고려할 사항
* 데이터 선정 및 소싱
  - 사용할 텍스트 데이터의 출처 선정 (논문, 웹사이트, 위키피디아 등)
   -  저작권·라이선스 준수, 개인정보 포함 여부 확인

* 데이터 수집/전처리
   - 크롤링, 집계 등 다양한 방식 활용
   - 노이즈 제거, 중복 데이터 필터링, 언어별 정제 등

* 데이터 품질 관리
  -  미스레이블링, 편향, 중복, 결측치 등 점검

(2) AI 학습, Data Science 단계

- Data Engineering(데이터 엔지니어링)
  - Exploration(탐색)
  - Cleaning(정제)
  - Normalizing(정규화)
  - Feature Engineering(특징 엔지니어링)
  - Scaling(스케일링)
  - 실제 분석 및 예측 전 데이터 가공 및 준비

- 데이터 엔지니어링(Data Engineering)의 고려 사항

* 탐색 및 이해
   - 데이터 EDA(탐색적 분석)로 품질 진단
  - 토큰 수, 문장 길이 분포, 언어별 특성 파악

* 정제 및 정규화
   - 불필요한 문자, 특수기호, 코드 등 제거
    - 표준 포맷 맞추기(예: UTF-8 인코딩, 소문자화 등)

* 피처 엔지니어링
  - 텍스트 분할, 토큰화, 벡터화(BPE, WordPiece 등)
  - 특별 토큰(예: <CLS>, <SEP> 등) 삽입

- Modeling(모델링)
  - Model Selection(모델 선택)
  - Training(학습)
  - Evaluation(평가)
  - Tuning(튜닝)
  - 적합한 모델을 선정해 학습 및 평가, 성능 개선

- 모델링(Modeling) 단계 처리 과정

* 모델 설계 및 선정
    - 적합한 LLM 구조 및 하이퍼파라미터 설정
        (예: GPT, BERT, Llama, Mistral 등)
  -  파인튜닝/프롬프트 엔지니어링 전략 수립

* 학습 및 검증
   - 대규모 학습(ML infra, GPU/TPU 분산 연산 등)
   - 검증/테스트 세트 운영, overfitting/underfitting 점검

* 모델 평가 및 튜닝
- 지표(Perplexity, BLEU/Rouge/Accuracy 등)로 결과 평가
  - 하이퍼파라미터 튜닝, 에러 분석, 성능 개선

(3) Value 활용 단계

- Operationalizing(실행/운영화)
  - Registration(등록)
  - Deployment(배포)
  - Monitoring(모니터링)
  - Retraining(재학습)
  - 실사용에 적합하게 관리와 모니터링, 재학습 등 운영 활동이 필수

- 운영화(Operationalizing)

* 서비스화·배포
  -  API 또는 챗봇 등 형태로 배포
  - MLOps 적용, CI/CD, 자동화 파이프라인 구성

* 모니터링 및 유지관리
   - 모델 응답 속도, 이상치 감지, 로그분석 등
   - 사용 패턴 기반 주기적 리트레이닝

* 버전 관리 및 재학습
  -  데이터·모델 버전 관리
  - 최신 트렌드 및 추가 데이터 수집해 재학습

(4) AI 거버넌스 Constraints(제약)

- 법적·윤리적·기술적 제약이 모든 단계에 걸쳐 존재
  - Legal(법률)
  - Ethical/Transparency(윤리, 투명성)
  - Historical(bias)(역사적 편향)
  - Security(보안)
  - 데이터와 모델의 윤리성, 투명성, 법적 준수, 보안 문제 등이 항상 고려되어야 한다.

- AI거버넌스와  제약(Constraints)
* 법적·윤리적 이슈
- 개인정보보호법, 데이터 사용 동의, 공정성 확보

* 투명성/설명 가능성
- 결과의 해석성, 예측 근거 설명(Explainable AI)

* 편향 및 차별
- 소수자/특정 집단 차별 방지, 역사적 편견 제거

* 보안 및 안전
  - 악의적 프롬프트, 개인정보 유출 방지 등 보안 대책

핵심 내용

- AI의 가치는 단순히 ‘데이터 투입 → AI → 가치’로 생성되지 않는다.

- 데이터 수집, 전처리, 모델링, 배포·운영 그리고 법적·윤리적 관리 등 다양한 과정이 실제 배치와 성공적인 가치 창출에 필수적이다.

- 모든 단계는 법적, 윤리적, 역사적 편견, 보안 등 복합적인 제약 조건들의 영향을 받는다.

*

728x90