머신러닝 기반 생성(합성)데이터 기술의 발전과 모델의 특징
아래는 머신 러닝 기반 생성(합성) 데이터 모델 종류를 연구한 논문 및 자료를 2000년대, 2010년대, 2020년대, 2023년 이후로 구분하여 표로 정리한 내용입니다. 각 분류 항목별로 빠짐없이 정리했습니다.
| 생성 데이터 유형 | 비식별 수준 | 생성모델명 | 공격 취약점 | 취약점 방어/개선 기술 | 구현 기술 | 구현 기술 난이도 | 연구시기 | 연구 논문 명 또는 주요 자료 요약 | 발간연도 |
|---|---|---|---|---|---|---|---|---|---|
| 이미지, 텍스트 | 낮음~중 | 오토인코더, GMM, PCA | 단순 구조, 복원, 정보 유출 | 치환, 마스킹 | Masking, 치환, ML | 낮음~보통 | 2000년대 | Autoencoder 개념 및 ML 기반 데이터 생성/복원 연구[1] | 2006 |
| 이미지, 음성 | 중~높음 | VAE | 노이즈, 흐린 품질 | 노이즈 주입, 정규화 | VAE, Deep Learning, 차등, 노이즈 | 보통~높음 | 2010년대 | Variational Auto-Encoder 및 확률 모델 기반 합성[2][3] | 2014 |
| 텍스트, 이미지, 음성 | 높음 | GAN, DCGAN, PGGAN | 딥페이크, 재식별 공격, 모드 붕괴 | 판별자 강화, Adversarial Training, 차등 Privacy | GAN, CNN, Deep Learning, 암호화, 차등 | 높음 | 2014~2020 | GAN/PGGAN/StyleGAN, 음성·이미지 TTS 합성, 적대적 공격 방어 논문[4][5][6][3] | 2016~2020 |
| 구조화 데이터(표 등) | 높음 | Tabular GAN | 재식별 공격 | 차등 개인 정보 보호, 품질 평가 | GAN, ML, 차등 Privacy, Adversarial Training | 높음 | 2020년대 | 표형식 데이터의 GAN 기반 공격·방어 논문[5] | 2023 |
| 이미지, 텍스트, 멀티모달 | 매우 높음 | Diffusion Model, Transformer 기반 모델 | 프롬프트 오용, 환각, 품질 저하 | 품질 평가 강화, XAI, prompt engineering | Diffusion, Deep Learning, Nural Net, Transformer, XAI | 매우 높음 | 2021~2023 | Diffusion/Transformer 기반 DALL·E, Stable Diffusion, Multimodal AI 논문[7][8] | 2022~2023 |
| 모든 데이터 유형 | 매우 높음 | LLM, Foundation Model | 윤리, 편향, 허위 정보 생성 | RAG, 품질 강화, 설명성 강화(XAI) | Nural Network, Deep Learning, RAG, XAI | 매우 높음 | 2023년 이후 | GPT-4, Gemini 등 초대형 모델, Ethics/Quality/RAG 관련 논문 및 동향[7][9][10] | 2023~2025 |
표 해설 및 참고 정보
- 2000년대: 오토인코더, GMM 등 기본 ML 기반 모델 활용. 정보 복원 한계, 품질 저하 문제점.
- 2010년대: VAE, GAN 출현. 노이즈 주입·복원/적대적 학습, 품질·보안 개선.
- 2020년대: Diffusion, Transformer, Tabular GAN 등 대형 모델 도입. 데이터 품질·윤리·적대적 공격/방어에 관한 연구 활성화.
- 2023년 이후: LLM, Multimodal AI, 설명 가능한 AI(XAI), RAG 등 최신모델과 윤리·품질·방어 기술 동반 발전.
아래는 머신 러닝 기반 생성(합성) 데이터 모델 분야에서 다양하고 최신 연구 논문 및 보고서를 시기별로 추가 조사·확장하여 표 형식으로 정리한 내용입니다. 각 분류 항목별로 빠짐없이 명시했습니다.
| 생성 데이터 유형 | 비식별 수준 | 생성모델명 | 공격 취약점 | 취약점 방어/개선 기술 | 구현 기술 | 구현 기술 난이도 | 연구시기 | 연구 논문 및 주요 자료(요약) | 발간연도 |
|---|---|---|---|---|---|---|---|---|---|
| 이미지, 표, 음성 | 낮음~중 | 오토인코더, GMM, PCA | 데이터 복원, 품질 저하 | 마스킹, 정규화, 치환 | ML, NN, Masking, 치환, 암호화 | 낮음~보통 | 2000년대 | Autoencoder/머신러닝 기반 데이터 합성, GMM·PCA 등 기초법[1][2][3] | 2006~2010 |
| 의료·금융 데이터 | 중~높음 | VAE, DCGAN, Deep Gen Model | 노이즈, 프라이버시, 유출 | 노이즈, 차등 Privacy, 데이터 가명화 | Deep Learning, VAE, GAN, Noise, 차등 Privacy | 높음 | 2010년대 | VAE 의료적용·DCGAN 기반 금융/의료 데이터 합성, 품질평가 연구[4][5][6][7] | 2013~2019 |
| 텍스트, 이미지, 음성 | 높음 | GAN, StyleGAN, PGGAN | 딥페이크, 정보 재식별, 편향 | Adversarial Training, differential privacy, 판별자 강화, XAI | GAN, Deep Learning, 차등 Privacy, XAI, 암호화 | 높음 | 2016~2022 | GAN 기반 영상·음성 합성, 품질·다양성 평가, 적대적 공격·방어 논문[8][9][10][11][12] | 2016~2022 |
| 표형 데이터(금융, 의료) | 높음 | Tabular GAN, CTGAN | 재식별, 편향 | 품질 평가, 차등 개인정보보호 | GAN, ML, 차등 Privacy, Adversarial Training | 높음 | 2020년대 | Tabular GAN 기반 표형데이터 합성 및 공격/방어 논문[13][5][10] | 2021~2024 |
| 텍스트, 멀티모달 | 매우 높음 | Diffusion Model, Transformer | 환각, 품질 저하, 텍스트 편향 | Quality Assurance, XAI, RAG, prompt engineering | Diffusion, Transformer, Deep Learning, XAI, RAG | 매우 높음 | 2022~2024 | Diffusion/Transformer 기반 합성·멀티모달 AI 연구, 품질·윤리 평가[14][15][16][12] | 2022~2024 |
| 다양한 데이터 유형 | 매우 높음 | LLM, Gemini, GPT-4 등 | 윤리, 편향, 허위 정보, 적대공격 | RAG, 품질·윤리 보증, 설명성(XAI), Adversarial Defense | LLM, Foundation Model, Deep Learning, XAI, Adversarial Defense | 매우 높음 | 2023년 이후 | LLM·Gemini·GPT-4 기반 초대형모델, 윤리성 강화를 위한 최신 논문 및 트렌드[14][16][12][17] | 2023~2025 |
| 의료·산업 응용 | 매우 높음 | 각종 전문가 모델 + LLM/XAI | 개인정보 노출, 산업 윤리, 품질 이슈 | 온프레미스, federated learning, 전문가 협업, 표준화 | ML·Deep Learning·XAI·연합학습·암호화·설명성 | 매우 높음 | 2023년 이후 | 헬스케어·산업 AI 혁신·윤리 보증·XAI 적용·실증 논문[18][19][20][21][11] | 2023~2025 |
추가 논문 및 트렌드 요약
- Autoencoder, PCA, GMM 연구: 기초 데이터 합성·복원/차원 축소 등[1][3].
- VAE/DCGAN/Deep Gen Model: 의료·금융·표형 데이터 합성, 품질·프라이버시 평가.
- GAN/StyleGAN/PGGAN: 딥페이크·영상·음성 합성, 정보 유출 및 부적절 변조·방어.
- Tabular GAN/CTGAN: 표형 데이터(의료/금융/산업 등) 합성에 공격/방어·품질/설명성 강화.
- Diffusion/Transformer: 멀티모달 합성, 품질·윤리 보증, 생성 데이터 편향/환각 대응.
- LLM/Foundation Model: 초대형 모델, 품질·윤리·적대공격 방어, XAI 등 실증적/산업적 적용.
위 표와 해설은 머신러닝 기반 합성 데이터 모델의 최신 논문, 품질평가, 방어기술, 실제 산업 응용까지 방대한 자료를 구조적으로 비교·파악할 수 있도록 구성되어 있습니다.
출처
[1] 어도비 디렉터가 본 Generative AI 과거, 현재 그리고 미래 | 블로그 https://modulabs.co.kr/blog/generative-ai-from-past-to-future
[2] 인공지능/역사 - 나무위키 https://namu.wiki/w/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5/%EC%97%AD%EC%82%AC
[3] 연구분야별 연구동향 - 한국학술지인용색인 https://www.kci.go.kr/kciportal/po/search/poFielResearchTrendList.kci?clasSearchBean.largMajorCd=D&poResearchTrendSearchBean.middMajorCds=D12
[4] [논문]GAN 기반 고해상도 의료 영상 생성을 위한 연구 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=NPAP13264135
[5] [PDF] 인공지능 기반 무기체계 데이터 품질평가 지표에 대한 고찰 https://www.kais99.org/jkais/journal/Vol24No09/vol24no09p63.pdf
[6] GAN 기반 의료영상 생성 모델에 대한 품질 및 다양성 평가 및 분석 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11068241
[7] [PDF] 초거대 AI와 생성형 인공지능 - TTA 한국 정보통신기술협회 http://weekly.tta.or.kr/weekly/files/20232901012950_weekly.pdf
[8] [논문]GAN 적대적 생성 신경망과 이미지 생성 및 변환 기술 동향 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202062663815465
[9] 생성적 적대 신경망과 데이터 확장을 이용한 딥러닝 기반 TTS 음질 개선 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09338295
[10] [PDF] 적대적 머신러닝 공격과 방어기법 - Korea Science https://koreascience.kr/article/CFKO202323672004580.pdf
[11] 적대적 공격 및 방어 기술의 성능 향상을 위한 역방향 ... https://koreascience.kr/article/JAKO202431757651597.pdf
[12] [PDF] 생성형 인공지능 기술의 최신 동향과 적용 사례 분석 https://koreascience.kr/article/JAKO202405259940319.pdf
[13] [논문 리뷰] Privacy Re-identification Attacks on Tabular GANs https://www.themoonlight.io/ko/review/privacy-re-identification-attacks-on-tabular-gans
[14] 생성형 AI의 개요 https://www.dawnscapelab.com/an-overview-of-generative-ai/
[15] 확산 모델이란 무엇인가요? - IBM https://www.ibm.com/kr-ko/think/topics/diffusion-models
[16] 산업 전반에 결합하고 있는 생성형AI (1)편 – 개념, 동향 - AHHA Labs https://ahha.ai/2023/11/17/genai1/
[17] Recent Trends in Explainable Artificial Intelligence (XAI) https://xai.kaist.ac.kr/static/files/2023_xai_workshop/talk1.pdf
[18] 생성형 AI, 헬스케어 산업의 미래 https://koreabio.org/board/download.php?board=Y&bo_table=brief&file_name=b_file_1730264362yawup6088w.pdf&o_file_name=%5B%EB%B8%8C%EB%A6%AC%ED%94%84193%5D+%EC%83%9D%EC%84%B1%ED%98%95+ai%2C+%ED%97%AC%EC%8A%A4%EC%BC%80%EC%96%B4+%EC%82%B0%EC%97%85%EC%9D%98+%EB%AF%B8%EB%9E%98.pdf
[19] [PDF] AI로 촉발된 헬스케어 산업의 대전환 https://assets.kpmg.com/content/dam/kpmg/kr/pdf/2024/insight/kpmg-korea-ai-healthcare-20240625.pdf
[20] 생성AI시대, 의료 현장 '지휘자' 맡는 AI - 네이버 프리미엄콘텐츠 https://contents.premium.naver.com/jiphyunnet/knowledge/contents/241202231752934tj
[21] 한국정보보호학회 동계학술대회 https://www.manuscriptlink.com/society/kiisc/conference/ciscw2024/custom/custom
출처
[1] 어도비 디렉터가 본 Generative AI 과거, 현재 그리고 미래 | 블로그 https://modulabs.co.kr/blog/generative-ai-from-past-to-future
[2] 생성형 인공지능(Generative AI) 산업 현황 보고서 > 저작권동향(상세 ... https://www.copyright.or.kr/information-materials/trend/the-copyright/view.do?brdctsno=51810&pageIndex=7¬iceYn=&brdclasscodeList=&etc2=&etc1=&searchText=&searchkeyword=&brdclasscode=02&nationcodeList=&searchTarget=ALL&nationcode=
[3] [PDF] 초거대 AI와 생성형 인공지능 - TTA 한국 정보통신기술협회 http://weekly.tta.or.kr/weekly/files/20232901012950_weekly.pdf
[4] 생성적 적대 신경망과 데이터 확장을 이용한 딥러닝 기반 TTS 음질 개선 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09338295
[5] [논문 리뷰] Privacy Re-identification Attacks on Tabular GANs https://www.themoonlight.io/ko/review/privacy-re-identification-attacks-on-tabular-gans
[6] [PDF] 적대적 머신러닝 공격과 방어기법 - Korea Science https://koreascience.kr/article/CFKO202323672004580.pdf
[7] 생성형 AI의 개요 https://www.dawnscapelab.com/an-overview-of-generative-ai/
[8] 확산 모델이란 무엇인가요? - IBM https://www.ibm.com/kr-ko/think/topics/diffusion-models
[9] 산업 전반에 결합하고 있는 생성형AI (1)편 – 개념, 동향 - AHHA Labs https://ahha.ai/2023/11/17/genai1/
[10] [PDF] 생성형 인공지능 기술의 최신 동향과 적용 사례 분석 https://koreascience.kr/article/JAKO202405259940319.pdf
[11] [논문]증류탑을 위한 머신러닝 기반 플랫폼 개발 - 사이언스온 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202031458603584
[12] [논문]증류공정 내부 온도 예측을 위한 머신 러닝 모델 개발 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202031659968438
[13] 학위논문 상세보기 - RISS 검색 https://m.riss.kr/search/detail/ssoSkipDetailView.do?p_mat_type=be54d9b8bc7cdb09&control_no=f02ee4075437f241ffe0bdc3ef48d419
[14] 머신 러닝이란 무엇입니까? | Adobe 한국 https://business.adobe.com/kr/products/real-time-customer-data-platform/what-is-machine-learning.html
[15] 논문목록 - 서강대학교-AI·SW대학원 https://gsinfo.sogang.ac.kr/gsinfo/gsinfo03_4_4.html
[16] [PDF] 머신러닝 혁신 특성과 니치의 탄생: 한국 스타트업 사례를 중심으로 https://koreascience.kr/article/JAKO202126651547263.pdf
[17] [PDF] 인공지능 기반 무기체계 데이터 품질평가 지표에 대한 고찰 https://www.kais99.org/jkais/journal/Vol24No09/vol24no09p63.pdf
[18] 연구분야별 연구동향 - 한국학술지인용색인 https://www.kci.go.kr/kciportal/po/search/poFielResearchTrendList.kci?clasSearchBean.largMajorCd=D&poResearchTrendSearchBean.middMajorCds=D12
[19] 논문 목록 - 과학기술 지식인프라 ScienceON (사이언스온) https://scienceon.kisti.re.kr/srch/selectPORSrchArticleList.do?page=8&searchKeyword=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&prefixQuery=&collectionQuery=&showQuery=%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D&resultCount=10&sortName=RANK&sortOrder=DESC&colType=scholar&colTypeByUser=organ&filterValue=
[20] 인공지능/역사 - 나무위키 https://namu.wiki/w/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5/%EC%97%AD%EC%82%AC
[21] 적대적 공격 및 방어 기술의 성능 향상을 위한 역방향 적대적 데이터 ... https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11956133