LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제
LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제
AI의 가치는 단순히 ‘데이터 투입 → AI → 가치’로 생성되지 않는다.
- 데이터 수집, 전처리, 모델링, 배포·운영 그리고 법적·윤리적 관리 등 다양한 과정이 실제 배치와 성공적인 가치 창출에 필수적이다.
1. 기업이 생각하는 AI 프로세스 (단순화된 관점)
- Data → AI → Value
- 기업들은 데이터를 입력하면 곧바로 AI가 작동해 손쉽게 비즈니스 가치(Value)를 창출한다고 여기기 쉽다.
- 이 과정에서는 중간 단계나 실제 활동들이 드러나지 않는다.

2. 실제 AI·데이터 사이클 (현실적인 관점)
- Data → Data Science → Value
- 실제로는 여러 복잡한 단계와 협업이 필요하다.
(1) Data 관리 단계
- Data 수집과 생성
- Selection(선택)
- Sourcing(수집)
- Synthesis(합성)
- 데이터를 모으고, 적합한 데이터를 선택하며, 필요시 합성하는 과정 포함
- Data 수집과 생성 고려할 사항
* 데이터 선정 및 소싱
- 사용할 텍스트 데이터의 출처 선정 (논문, 웹사이트, 위키피디아 등)
- 저작권·라이선스 준수, 개인정보 포함 여부 확인
* 데이터 수집/전처리
- 크롤링, 집계 등 다양한 방식 활용
- 노이즈 제거, 중복 데이터 필터링, 언어별 정제 등
* 데이터 품질 관리
- 미스레이블링, 편향, 중복, 결측치 등 점검
(2) AI 학습, Data Science 단계
- Data Engineering(데이터 엔지니어링)
- Exploration(탐색)
- Cleaning(정제)
- Normalizing(정규화)
- Feature Engineering(특징 엔지니어링)
- Scaling(스케일링)
- 실제 분석 및 예측 전 데이터 가공 및 준비
- 데이터 엔지니어링(Data Engineering)의 고려 사항
* 탐색 및 이해
- 데이터 EDA(탐색적 분석)로 품질 진단
- 토큰 수, 문장 길이 분포, 언어별 특성 파악
* 정제 및 정규화
- 불필요한 문자, 특수기호, 코드 등 제거
- 표준 포맷 맞추기(예: UTF-8 인코딩, 소문자화 등)
* 피처 엔지니어링
- 텍스트 분할, 토큰화, 벡터화(BPE, WordPiece 등)
- 특별 토큰(예: <CLS>, <SEP> 등) 삽입
- Modeling(모델링)
- Model Selection(모델 선택)
- Training(학습)
- Evaluation(평가)
- Tuning(튜닝)
- 적합한 모델을 선정해 학습 및 평가, 성능 개선
- 모델링(Modeling) 단계 처리 과정
* 모델 설계 및 선정
- 적합한 LLM 구조 및 하이퍼파라미터 설정
(예: GPT, BERT, Llama, Mistral 등)
- 파인튜닝/프롬프트 엔지니어링 전략 수립
* 학습 및 검증
- 대규모 학습(ML infra, GPU/TPU 분산 연산 등)
- 검증/테스트 세트 운영, overfitting/underfitting 점검
* 모델 평가 및 튜닝
- 지표(Perplexity, BLEU/Rouge/Accuracy 등)로 결과 평가
- 하이퍼파라미터 튜닝, 에러 분석, 성능 개선
(3) Value 활용 단계
- Operationalizing(실행/운영화)
- Registration(등록)
- Deployment(배포)
- Monitoring(모니터링)
- Retraining(재학습)
- 실사용에 적합하게 관리와 모니터링, 재학습 등 운영 활동이 필수
- 운영화(Operationalizing)
* 서비스화·배포
- API 또는 챗봇 등 형태로 배포
- MLOps 적용, CI/CD, 자동화 파이프라인 구성
* 모니터링 및 유지관리
- 모델 응답 속도, 이상치 감지, 로그분석 등
- 사용 패턴 기반 주기적 리트레이닝
* 버전 관리 및 재학습
- 데이터·모델 버전 관리
- 최신 트렌드 및 추가 데이터 수집해 재학습
(4) AI 거버넌스 Constraints(제약)
- 법적·윤리적·기술적 제약이 모든 단계에 걸쳐 존재
- Legal(법률)
- Ethical/Transparency(윤리, 투명성)
- Historical(bias)(역사적 편향)
- Security(보안)
- 데이터와 모델의 윤리성, 투명성, 법적 준수, 보안 문제 등이 항상 고려되어야 한다.
- AI거버넌스와 제약(Constraints)
* 법적·윤리적 이슈
- 개인정보보호법, 데이터 사용 동의, 공정성 확보
* 투명성/설명 가능성
- 결과의 해석성, 예측 근거 설명(Explainable AI)
* 편향 및 차별
- 소수자/특정 집단 차별 방지, 역사적 편견 제거
* 보안 및 안전
- 악의적 프롬프트, 개인정보 유출 방지 등 보안 대책
핵심 내용
- AI의 가치는 단순히 ‘데이터 투입 → AI → 가치’로 생성되지 않는다.
- 데이터 수집, 전처리, 모델링, 배포·운영 그리고 법적·윤리적 관리 등 다양한 과정이 실제 배치와 성공적인 가치 창출에 필수적이다.
- 모든 단계는 법적, 윤리적, 역사적 편견, 보안 등 복합적인 제약 조건들의 영향을 받는다.
*