BigData

머신러닝 기반 생성(합성)데이터 기술의 발전과 모델의 특징

IT오이시이 2025. 8. 15. 21:50
728x90

아래는 머신 러닝 기반 생성(합성) 데이터 모델 종류를 연구한 논문 및 자료를 2000년대, 2010년대, 2020년대, 2023년 이후로 구분하여 표로 정리한 내용입니다. 각 분류 항목별로 빠짐없이 정리했습니다.


생성 데이터 유형 비식별 수준 생성모델명 공격 취약점 취약점 방어/개선 기술 구현 기술 구현 기술 난이도 연구시기 연구 논문 명 또는 주요 자료 요약 발간연도
이미지, 텍스트 낮음~중 오토인코더, GMM, PCA 단순 구조, 복원, 정보 유출 치환, 마스킹 Masking, 치환, ML 낮음~보통 2000년대 Autoencoder 개념 및 ML 기반 데이터 생성/복원 연구[1] 2006
이미지, 음성 중~높음 VAE 노이즈, 흐린 품질 노이즈 주입, 정규화 VAE, Deep Learning, 차등, 노이즈 보통~높음 2010년대 Variational Auto-Encoder 및 확률 모델 기반 합성[2][3] 2014
텍스트, 이미지, 음성 높음 GAN, DCGAN, PGGAN 딥페이크, 재식별 공격, 모드 붕괴 판별자 강화, Adversarial Training, 차등 Privacy GAN, CNN, Deep Learning, 암호화, 차등 높음 2014~2020 GAN/PGGAN/StyleGAN, 음성·이미지 TTS 합성, 적대적 공격 방어 논문[4][5][6][3] 2016~2020
구조화 데이터(표 등) 높음 Tabular GAN 재식별 공격 차등 개인 정보 보호, 품질 평가 GAN, ML, 차등 Privacy, Adversarial Training 높음 2020년대 표형식 데이터의 GAN 기반 공격·방어 논문[5] 2023
이미지, 텍스트, 멀티모달 매우 높음 Diffusion Model, Transformer 기반 모델 프롬프트 오용, 환각, 품질 저하 품질 평가 강화, XAI, prompt engineering Diffusion, Deep Learning, Nural Net, Transformer, XAI 매우 높음 2021~2023 Diffusion/Transformer 기반 DALL·E, Stable Diffusion, Multimodal AI 논문[7][8] 2022~2023
모든 데이터 유형 매우 높음 LLM, Foundation Model 윤리, 편향, 허위 정보 생성 RAG, 품질 강화, 설명성 강화(XAI) Nural Network, Deep Learning, RAG, XAI 매우 높음 2023년 이후 GPT-4, Gemini 등 초대형 모델, Ethics/Quality/RAG 관련 논문 및 동향[7][9][10] 2023~2025

표 해설 및 참고 정보

  • 2000년대: 오토인코더, GMM 등 기본 ML 기반 모델 활용. 정보 복원 한계, 품질 저하 문제점.
  • 2010년대: VAE, GAN 출현. 노이즈 주입·복원/적대적 학습, 품질·보안 개선.
  • 2020년대: Diffusion, Transformer, Tabular GAN 등 대형 모델 도입. 데이터 품질·윤리·적대적 공격/방어에 관한 연구 활성화.
  • 2023년 이후: LLM, Multimodal AI, 설명 가능한 AI(XAI), RAG 등 최신모델과 윤리·품질·방어 기술 동반 발전.

아래는 머신 러닝 기반 생성(합성) 데이터 모델 분야에서 다양하고 최신 연구 논문 및 보고서를 시기별로 추가 조사·확장하여 표 형식으로 정리한 내용입니다. 각 분류 항목별로 빠짐없이 명시했습니다.


생성 데이터 유형 비식별 수준 생성모델명 공격 취약점 취약점 방어/개선 기술 구현 기술 구현 기술 난이도 연구시기 연구 논문 및 주요 자료(요약) 발간연도
이미지, 표, 음성 낮음~중 오토인코더, GMM, PCA 데이터 복원, 품질 저하 마스킹, 정규화, 치환 ML, NN, Masking, 치환, 암호화 낮음~보통 2000년대 Autoencoder/머신러닝 기반 데이터 합성, GMM·PCA 등 기초법[1][2][3] 2006~2010
의료·금융 데이터 중~높음 VAE, DCGAN, Deep Gen Model 노이즈, 프라이버시, 유출 노이즈, 차등 Privacy, 데이터 가명화 Deep Learning, VAE, GAN, Noise, 차등 Privacy 높음 2010년대 VAE 의료적용·DCGAN 기반 금융/의료 데이터 합성, 품질평가 연구[4][5][6][7] 2013~2019
텍스트, 이미지, 음성 높음 GAN, StyleGAN, PGGAN 딥페이크, 정보 재식별, 편향 Adversarial Training, differential privacy, 판별자 강화, XAI GAN, Deep Learning, 차등 Privacy, XAI, 암호화 높음 2016~2022 GAN 기반 영상·음성 합성, 품질·다양성 평가, 적대적 공격·방어 논문[8][9][10][11][12] 2016~2022
표형 데이터(금융, 의료) 높음 Tabular GAN, CTGAN 재식별, 편향 품질 평가, 차등 개인정보보호 GAN, ML, 차등 Privacy, Adversarial Training 높음 2020년대 Tabular GAN 기반 표형데이터 합성 및 공격/방어 논문[13][5][10] 2021~2024
텍스트, 멀티모달 매우 높음 Diffusion Model, Transformer 환각, 품질 저하, 텍스트 편향 Quality Assurance, XAI, RAG, prompt engineering Diffusion, Transformer, Deep Learning, XAI, RAG 매우 높음 2022~2024 Diffusion/Transformer 기반 합성·멀티모달 AI 연구, 품질·윤리 평가[14][15][16][12] 2022~2024
다양한 데이터 유형 매우 높음 LLM, Gemini, GPT-4 등 윤리, 편향, 허위 정보, 적대공격 RAG, 품질·윤리 보증, 설명성(XAI), Adversarial Defense LLM, Foundation Model, Deep Learning, XAI, Adversarial Defense 매우 높음 2023년 이후 LLM·Gemini·GPT-4 기반 초대형모델, 윤리성 강화를 위한 최신 논문 및 트렌드[14][16][12][17] 2023~2025
의료·산업 응용 매우 높음 각종 전문가 모델 + LLM/XAI 개인정보 노출, 산업 윤리, 품질 이슈 온프레미스, federated learning, 전문가 협업, 표준화 ML·Deep Learning·XAI·연합학습·암호화·설명성 매우 높음 2023년 이후 헬스케어·산업 AI 혁신·윤리 보증·XAI 적용·실증 논문[18][19][20][21][11] 2023~2025

추가 논문 및 트렌드 요약

  • Autoencoder, PCA, GMM 연구: 기초 데이터 합성·복원/차원 축소 등[1][3].
  • VAE/DCGAN/Deep Gen Model: 의료·금융·표형 데이터 합성, 품질·프라이버시 평가.
  • GAN/StyleGAN/PGGAN: 딥페이크·영상·음성 합성, 정보 유출 및 부적절 변조·방어.
  • Tabular GAN/CTGAN: 표형 데이터(의료/금융/산업 등) 합성에 공격/방어·품질/설명성 강화.
  • Diffusion/Transformer: 멀티모달 합성, 품질·윤리 보증, 생성 데이터 편향/환각 대응.
  • LLM/Foundation Model: 초대형 모델, 품질·윤리·적대공격 방어, XAI 등 실증적/산업적 적용.

위 표와 해설은 머신러닝 기반 합성 데이터 모델의 최신 논문, 품질평가, 방어기술, 실제 산업 응용까지 방대한 자료를 구조적으로 비교·파악할 수 있도록 구성되어 있습니다.

출처
[1] 어도비 디렉터가 본 Generative AI 과거, 현재 그리고 미래 | 블로그 https://modulabs.co.kr/blog/generative-ai-from-past-to-future
[2] 인공지능/역사 - 나무위키 https://namu.wiki/w/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5/%EC%97%AD%EC%82%AC
[3] 연구분야별 연구동향 - 한국학술지인용색인 https://www.kci.go.kr/kciportal/po/search/poFielResearchTrendList.kci?clasSearchBean.largMajorCd=D&poResearchTrendSearchBean.middMajorCds=D12
[4] [논문]GAN 기반 고해상도 의료 영상 생성을 위한 연구 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=NPAP13264135
[5] [PDF] 인공지능 기반 무기체계 데이터 품질평가 지표에 대한 고찰 https://www.kais99.org/jkais/journal/Vol24No09/vol24no09p63.pdf
[6] GAN 기반 의료영상 생성 모델에 대한 품질 및 다양성 평가 및 분석 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11068241
[7] [PDF] 초거대 AI와 생성형 인공지능 - TTA 한국 정보통신기술협회 http://weekly.tta.or.kr/weekly/files/20232901012950_weekly.pdf
[8] [논문]GAN 적대적 생성 신경망과 이미지 생성 및 변환 기술 동향 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202062663815465
[9] 생성적 적대 신경망과 데이터 확장을 이용한 딥러닝 기반 TTS 음질 개선 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09338295
[10] [PDF] 적대적 머신러닝 공격과 방어기법 - Korea Science https://koreascience.kr/article/CFKO202323672004580.pdf
[11] 적대적 공격 및 방어 기술의 성능 향상을 위한 역방향 ... https://koreascience.kr/article/JAKO202431757651597.pdf
[12] [PDF] 생성형 인공지능 기술의 최신 동향과 적용 사례 분석 https://koreascience.kr/article/JAKO202405259940319.pdf
[13] [논문 리뷰] Privacy Re-identification Attacks on Tabular GANs https://www.themoonlight.io/ko/review/privacy-re-identification-attacks-on-tabular-gans
[14] 생성형 AI의 개요 https://www.dawnscapelab.com/an-overview-of-generative-ai/
[15] 확산 모델이란 무엇인가요? - IBM https://www.ibm.com/kr-ko/think/topics/diffusion-models
[16] 산업 전반에 결합하고 있는 생성형AI (1)편 – 개념, 동향 - AHHA Labs https://ahha.ai/2023/11/17/genai1/
[17] Recent Trends in Explainable Artificial Intelligence (XAI) https://xai.kaist.ac.kr/static/files/2023_xai_workshop/talk1.pdf
[18] 생성형 AI, 헬스케어 산업의 미래 https://koreabio.org/board/download.php?board=Y&bo_table=brief&file_name=b_file_1730264362yawup6088w.pdf&o_file_name=%5B%EB%B8%8C%EB%A6%AC%ED%94%84193%5D+%EC%83%9D%EC%84%B1%ED%98%95+ai%2C+%ED%97%AC%EC%8A%A4%EC%BC%80%EC%96%B4+%EC%82%B0%EC%97%85%EC%9D%98+%EB%AF%B8%EB%9E%98.pdf
[19] [PDF] AI로 촉발된 헬스케어 산업의 대전환 https://assets.kpmg.com/content/dam/kpmg/kr/pdf/2024/insight/kpmg-korea-ai-healthcare-20240625.pdf
[20] 생성AI시대, 의료 현장 '지휘자' 맡는 AI - 네이버 프리미엄콘텐츠 https://contents.premium.naver.com/jiphyunnet/knowledge/contents/241202231752934tj
[21] 한국정보보호학회 동계학술대회 https://www.manuscriptlink.com/society/kiisc/conference/ciscw2024/custom/custom


출처
[1] 어도비 디렉터가 본 Generative AI 과거, 현재 그리고 미래 | 블로그 https://modulabs.co.kr/blog/generative-ai-from-past-to-future
[2] 생성형 인공지능(Generative AI) 산업 현황 보고서 > 저작권동향(상세 ... https://www.copyright.or.kr/information-materials/trend/the-copyright/view.do?brdctsno=51810&pageIndex=7&noticeYn=&brdclasscodeList=&etc2=&etc1=&searchText=&searchkeyword=&brdclasscode=02&nationcodeList=&searchTarget=ALL&nationcode=
[3] [PDF] 초거대 AI와 생성형 인공지능 - TTA 한국 정보통신기술협회 http://weekly.tta.or.kr/weekly/files/20232901012950_weekly.pdf
[4] 생성적 적대 신경망과 데이터 확장을 이용한 딥러닝 기반 TTS 음질 개선 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09338295
[5] [논문 리뷰] Privacy Re-identification Attacks on Tabular GANs https://www.themoonlight.io/ko/review/privacy-re-identification-attacks-on-tabular-gans
[6] [PDF] 적대적 머신러닝 공격과 방어기법 - Korea Science https://koreascience.kr/article/CFKO202323672004580.pdf
[7] 생성형 AI의 개요 https://www.dawnscapelab.com/an-overview-of-generative-ai/
[8] 확산 모델이란 무엇인가요? - IBM https://www.ibm.com/kr-ko/think/topics/diffusion-models
[9] 산업 전반에 결합하고 있는 생성형AI (1)편 – 개념, 동향 - AHHA Labs https://ahha.ai/2023/11/17/genai1/
[10] [PDF] 생성형 인공지능 기술의 최신 동향과 적용 사례 분석 https://koreascience.kr/article/JAKO202405259940319.pdf
[11] [논문]증류탑을 위한 머신러닝 기반 플랫폼 개발 - 사이언스온 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202031458603584
[12] [논문]증류공정 내부 온도 예측을 위한 머신 러닝 모델 개발 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202031659968438
[13] 학위논문 상세보기 - RISS 검색 https://m.riss.kr/search/detail/ssoSkipDetailView.do?p_mat_type=be54d9b8bc7cdb09&control_no=f02ee4075437f241ffe0bdc3ef48d419
[14] 머신 러닝이란 무엇입니까? | Adobe 한국 https://business.adobe.com/kr/products/real-time-customer-data-platform/what-is-machine-learning.html
[15] 논문목록 - 서강대학교-AI·SW대학원 https://gsinfo.sogang.ac.kr/gsinfo/gsinfo03_4_4.html
[16] [PDF] 머신러닝 혁신 특성과 니치의 탄생: 한국 스타트업 사례를 중심으로 https://koreascience.kr/article/JAKO202126651547263.pdf
[17] [PDF] 인공지능 기반 무기체계 데이터 품질평가 지표에 대한 고찰 https://www.kais99.org/jkais/journal/Vol24No09/vol24no09p63.pdf
[18] 연구분야별 연구동향 - 한국학술지인용색인 https://www.kci.go.kr/kciportal/po/search/poFielResearchTrendList.kci?clasSearchBean.largMajorCd=D&poResearchTrendSearchBean.middMajorCds=D12
[19] 논문 목록 - 과학기술 지식인프라 ScienceON (사이언스온) https://scienceon.kisti.re.kr/srch/selectPORSrchArticleList.do?page=8&searchKeyword=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&prefixQuery=&collectionQuery=&showQuery=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&resultCount=10&sortName=RANK&sortOrder=DESC&colType=scholar&colTypeByUser=organ&filterValue=
[20] 인공지능/역사 - 나무위키 https://namu.wiki/w/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5/%EC%97%AD%EC%82%AC
[21] 적대적 공격 및 방어 기술의 성능 향상을 위한 역방향 적대적 데이터 ... https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11956133

728x90
반응형