728x90
반응형

BigData 116

YugabyteDB를 이용한 Claude Desktop MCP 서버 설치

YugabyteDB를 이용한 Claude Desktop MCP 서버 설치MCP란?MCP(Model Context Protocol)는 대규모 언어 모델(LLM)이 일관되고 표준화된 방식으로 기존 엔터프라이즈 서비스와 상호 작용할 수 있도록 하는 새로운 표준입니다. 즉) MCP 서버는 AI가 외부 시스템과 연결되도록 커스텀 API 통합 할 수 있는 표준 인터페이스 입니다. MCP 서버로 LLM(예: Claude)이 자연어로 YugabyteDB에 직접 접근하고 데이터를 분석할 수 있도록 해주는 Python 기반 경량 서버를 구성 할 수 있습니다 yugabyte.com. 🧠 MCP 서버의 장점표준화된 MCP 프로토콜로 AI 서비스 간의 확장성과 호환성 제공LLM이 실시간 데이터에 접근 가능(RAG)안전한 쿼..

BigData 2025.10.14

분산DB-YugabyteDB - 클라우드 네이티브 분산 SQL 데이터베이스 설치 가이드

(Linux)YugabyteDB Quick start | YugabyteDB Docs(MacOS) YugabyteDB Quick start | YugabyteDB Docs🧠 YugabyteDB란?YugabyteDB는 오픈 소스이며, 클라우드 네이티브 환경에 최적화된 분산 SQL 데이터베이스입니다. PostgreSQL과 호환되며, 고가용성과 확장성을 갖춘 구조로 설계되어 있어 대규모 클라우드 애플리케이션에 적합합니다. 🔍 주요 특징오픈 소스: 누구나 자유롭게 사용하고 수정할 수 있으며, 커뮤니티 중심으로 발전합니다.클라우드 네이티브: 퍼블릭 클라우드, 프라이빗 클라우드, Kubernetes 환경 등 다양한 클라우드 인프라에 쉽게 배포 가능.분산 SQL: 데이터를 여러 노드에 분산 저장하면서도 SQL ..

BigData 2025.10.14

Presidio: Data Protection and De-identification

Microsoft Presidio: Data Protection and De-identification Presidio(라틴어 praesidium '보호, 수비대'에서 유래)는 민감한 데이터를 적절하게 관리하고 통제하는 데 도움이 됩니다. 다음과 같은 텍스트 및 이미지의 개인 엔터티에 대한 빠른 식별 및 익명화 모듈을 제공합니다. 신용카드 번호, 이름, 위치, 주민등록번호, 비트코인 지갑, 미국 전화번호, 금융 데이터 등. 주요특징개인식별정보(PII) 탐지 및 익명화: 이름, 이메일 주소, 신용카드 번호, 전화번호, 위치, 비트코인 지갑 주소, 사용자 정의 PII 등 광범위한 PII 유형을 탐지하고 비식별화합니다PII 식별 및 익명화의 사용자 정의 가능성.유연하고 확장 가능: 정규 표현식(Regex),..

BigData 2025.10.10

예시로 보는 *PyTorch 기반의 "DDPM(Denoising Diffusion Probabilistic Model)"* - 이미지생성모델

예시로 보는 PyTorch 기반의 "DDPM(Denoising Diffusion Probabilistic Model)"핵심 원리(노이즈 추가 및 제거)를 이해하기 쉽고, 실제로 학습 및 샘플 생성까지 코드PyTorch 기반의 DDPM(Denoising Diffusion Probabilistic Model)은 이미지 생성 분야에서 가장 강력하고 안정적인 모델 중 하나로 평가받고 있어요. 아래에 DDPM의 핵심 개념과 PyTorch 구현 예시 입니다. 🧠 DDPM 핵심 개념 요약 작동 단계설명Forward Process (q)원본 이미지에 점진적으로 Gaussian 노이즈를 추가해 완전히 파괴된 이미지 (x_T)로 변환Reverse Process (p)파괴된 이미지 (x_T)에서 점진적으로 노이즈를 제거..

BigData 2025.08.29

인공지능 모델 연구 - Diffusion 합성데이터 기술의 부각

인공지능 모델 연구 - Diffusion 합성데이터 기술의 부각Diffusion은 물리학적 확산 모델을 기반으로, 노이즈에서 점진적으로 데이터를 복원하는 방식이에요. 딥러닝 기반 생성 모델은 주로 인코더-디코더 또는 생성자-판별자 구조로, 빠르게 결과를 생성하지만 품질이나 안정성에서 한계가 있었죠.Diffusion은 특히 합성 데이터의 다양성과 품질, 시간적 일관성에서 뛰어난 성능을 보여주며, 최근에는 멀티모달 AI의 핵심 기술로 자리잡고 있습니다.딥러닝 기반 생성 모델 vs Diffusion 모델합성 데이터 기술의 발전은 최근 몇 년 사이에 딥러닝 기반 생성 모델에서 Diffusion 모델로 빠르게 진화하고 있습니다. 두 기술의 접근 방식과 특성에서 차이가 있습니다. 🧠 Diffusion vs 딥러..

BigData 2025.08.29

(합성데이터) 텍스트 기반 생성 모델의 종류와 발전

텍스트 기반 생성 모델의 기술 발전은 2000년대 초반 간단한 시퀀스 모델에서 시작해, 딥러닝 기반 트랜스포머(Transformer)와 초대형 언어 모델(LLM, Large Language Model)까지 혁신적으로 성장했습니다. 주요 발전 흐름은 다음과 같습니다.1. 시퀀스 모델 (2000~2010년대 초반)RNN(순환신경망)·LSTM(장기단기메모리): 시퀀스 데이터(문장 등) 처리와 예측에 특화. 그러나 장기 의존성(문장이 길 경우 정보 손실) 문제와 학습 속도 한계 존재.Word Embedding: Word2Vec, GloVe 등 단어를 벡터로 변환해 의미(semantic)를 내포함. 단어 간의 유사성/관계 학습이 가능해짐. 2. Attention과 Transformer의 시대 (2017~)Tran..

BigData 2025.08.24

동영상 합성 데이터 기술의 발전과 생성 모델의 특징

동영상 합성 데이터 기술의 발전은 이미지 생성 AI와 마찬가지로, 기초 머신러닝 → GAN → Diffusion/Transformer → 텍스트-투-비디오 및 멀티모달 구조로 대단히 빠르게 진화해왔습니다. 주요 발전 흐름과 특징은 아래와 같습니다.1. 초기 (2000년대~2010년대)디지털 편집·Morphing: 초창기 영상 합성은 종래 ML 및 디지털 편집, 치환, 마스킹 기반으로 저차원 효과 구현.VAE/RNN/CNN 등 기본 신경망 활용: 동적으로 영상 프레임을 생성하거나 보간하는 연구, 데이터 정규화 및 품질 향상에 집중.실제 응용: 영상 복원, 간단 얼굴 합성, 애니메이션 등 한정적 영역에 주로 사용됨.2. GAN 기반 동영상 합성 (2016~2021)GAN(Generative Adversari..

BigData 2025.08.22

인공지능-합성데이터- 의료.헬스 분야 데이터 합성의 발전과 모델의 특징

의료 분야 데이터 합성에서 생성형 모델의 발전 동향은 안전하고 신뢰할 수 있는 의료 AI 연구의 필수 요소로, 개념적·기술적 진화가 매우 활발하게 이루어지고 있습니다.1. 2000~2010년대 : 기초 머신러닝 및 VAE, GAN 도입기초 ML, VAE, GAN 활용하여 의료 영상·진단용 합성 데이터 생성.합성 데이터로 개인정보 보호, 데이터 부족 문제 완화.초기 GAN 기반 연구로, MRI/CT/엑스레이 등 의료 이미지 품질 증강 및 데이터 증강[1][2][3].품질 평가, 원본 대비 유사도 평가, 데이터 정화 기술이 연구됨.2. 2010~2020년대 : 고도화된 GAN/Diffusion/Deep LearningStyleGAN, DCGAN, PGGAN 등 고해상도 GAN 도입. 의료 영상 분류에서 데이..

BigData 2025.08.22

다변량확률변수(multivariate random variable)와 말단 확률변수(marginal random variable)의 관계

다변량확률변수(multivariate random variable)와 말단 확률변수(marginal random variable)의 관계다변량확률변수를 다루면서 우리는 이를 이루고 있는 각각의 말단 확률변수 (marginal random variable) 만으로는 전체 다변량확률변수를 100% 설명할 수 없다.왜 각각의 말단 확률분포만으로는 전체 다변량확률변수 전체를 100% 설명할 수 없는지 쉽게 풀어서 설명합니다.다변량확률변수란?정의: 여러 개의 확률변수가 한꺼번에 모여 이루는 확률변수 집합을 의미합니다.예시: (키, 체중), (주가1, 주가2, 환율), (수입, 지출, 저축) 등특징: 각 변수들은 개별적으로 분포를 가질 수도 있고, 서로 간에 *관계(상관, 의존성)*가 있을 수 있습니다.예를 들어,..

BigData 2025.08.18

데이터합성 - 코풀라 기반 모델 vs 확률적 그래픽 모델 (PGM)

데이터합성 - 코풀라 기반 모델 vs 확률적 그래픽 모델 (PGM) 코풀라(Copula) 모델코풀라(Copula) 모델은 각 변수의 분포와 그 사이의 의존 구조를 따로따로 떼어서 분석, 복잡한 상관관계를 섬세하게 다루는 데 특화되어 있습니다.전통적인 방법: 여러 변수(예: 주식A와 주식B)의 결합분포를 직접 구하려면 그 모든 변수가 동시에 어떻게 움직이는지 복잡하게 계산해야 합니다.코풀라 방법: 각각의 변수는 자기만의 분포(마진 분포)를 적당한 방식으로 각각 추정하고, 이들 사이의 종속 구조(의존성)는 코풀라 함수라는 한 가지 별개의 함수로 따로 모델링합니다코풀라를 활용하면,각 변수의 기본적인 분포와변수들 사이의 ‘복잡한 연결’(의존성)을‘따로따로 간단하게’ 다룬 후 마지막에 합칠 수 있으니, 여러 변..

BigData 2025.08.18

GAN(Generative Adversarial Network, 생성적 적대 신경망) 활용한 합성 . 생성 데이터 모델의 발전 동향과 특징

GAN(Generative Adversarial Network, 생성적 적대 신경망)을 활용한 합성 데이터 및 생성 데이터 모델은 2014년 등장 이후로 이미지, 음성, 텍스트, 표형 데이터 등 다양한 분야에서 혁신적으로 발전해왔습니다. 주요 발전 흐름을 정리하면 다음과 같습니다.1. GAN의 기본 개념 등장과 초기 연구 (2014~2016)2014년 Goodfellow의 GAN모델 제안: Generator와 Discriminator의 대립 구조를 통해 학습하는 방식으로, 데이터 분포를 모사하는 새로운 접근을 제시.기본 구조: Generator(생성자)가 합성 데이터를 생성하고, Discriminator(판별자)가 진짜/가짜를 감별하며 경쟁적으로 학습.핵심 성과: 기존 머신러닝 기반 합성 데이터 품질 한..

BigData 2025.08.15

차등 프라이버시(Differential Privacy, DP)기반 합성.생성 데이터 모델의 발전 동향과 모델 특징

차등 프라이버시(Differential Privacy, DP)를 기반으로 한 합성 데이터 및 생성 데이터 모델의 발전 동향은 개인정보 보호라는 시대적 요구에 따라 실제적 데이터 분석, 머신러닝, 생성형AI 등 다양한 분야로 빠르게 확장되고 있습니다.1. 개념 및 초기 연구 (2010년대 중반까지)차등 프라이버시 정의: 데이터 처리/분석 결과가 특정 개인의 포함 여부와 무관하게 거의 동일하도록 ‘노이즈’를 주입하는 수학적 기술.기초적 적용법: 간단한 데이터 분석(통계, 카운트)에 노이즈 추가하는 방식이 주로 활용됨.2. 고도화 및 생성모델과의 결합 (2017~2022)DP+머신러닝 모델 결합: DP-SGD(차등 프라이버시 확률적 경사하강법) 기법이 개발되어 딥러닝/신경망 모델 학습에도 적용(Abadi et..

BigData 2025.08.15

LLM(Large Language Model) 기반 생성.합성데이터 기술의 발전 동향과 특징

LLM(Large Language Model)을 기반으로 한 생성형 데이터 및 합성데이터 기술의 발전 동향은 자연어처리(NLP)를 넘어서 코드, 이미지, 멀티모달, 헬스 등 다양한 분야로 확장되고 있습니다. 여기서는 핵심 발전 흐름과 최신 트렌드를 정리합니다.1. 대형 언어모델 기반의 생성·합성 기술 초기 (2020~2022)GPT-2, GPT-3의 등장: 수십억~수조 파라미터 기반의 언어모델로 텍스트 생성, 요약, 번역, 질의응답, 데이터 증강 등에 활용.기존 텍스트 생성 기술을 뛰어넘어, 진짜 사람 글과 구분 어려운 고품질 문장·토픽 생산 가능.2. 범용(Foundation) 모델 및 멀티모달 전환 (2022~2023)GPT-4·Gemini·LLaMA 등: 상업·오픈소스 초대형 LLM의 등장, 자연어..

BigData 2025.08.15

머신러닝 기반 생성(합성)데이터 기술의 발전과 모델의 특징

아래는 머신 러닝 기반 생성(합성) 데이터 모델 종류를 연구한 논문 및 자료를 2000년대, 2010년대, 2020년대, 2023년 이후로 구분하여 표로 정리한 내용입니다. 각 분류 항목별로 빠짐없이 정리했습니다.생성 데이터 유형비식별 수준생성모델명공격 취약점취약점 방어/개선 기술구현 기술구현 기술 난이도연구시기연구 논문 명 또는 주요 자료 요약발간연도이미지, 텍스트낮음~중오토인코더, GMM, PCA단순 구조, 복원, 정보 유출치환, 마스킹Masking, 치환, ML낮음~보통2000년대Autoencoder 개념 및 ML 기반 데이터 생성/복원 연구[1]2006이미지, 음성중~높음VAE노이즈, 흐린 품질노이즈 주입, 정규화VAE, Deep Learning, 차등, 노이즈보통~높음2010년대Variation..

BigData 2025.08.15

LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제

LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제AI의 가치는 단순히 ‘데이터 투입 → AI → 가치’로 생성되지 않는다.- 데이터 수집, 전처리, 모델링, 배포·운영 그리고 법적·윤리적 관리 등 다양한 과정이 실제 배치와 성공적인 가치 창출에 필수적이다.1. 기업이 생각하는 AI 프로세스 (단순화된 관점)- Data → AI → Value - 기업들은 데이터를 입력하면 곧바로 AI가 작동해 손쉽게 비즈니스 가치(Value)를 창출한다고 여기기 쉽다. - 이 과정에서는 중간 단계나 실제 활동들이 드러나지 않는다. 2. 실제 AI·데이터 사이클 (현실적인 관점)- Data → Data Science → Value - 실제로는 여러 복잡한 단계와 협업이 필요하다.(1) Data 관리 ..

BigData 2025.08.15

AI 거버넌스, 리스크 및 컴플라이언스 프레임워크 종류 : ISO 42001/EU AI Act NIST RMF

AI 거버넌스, 리스크 및 컴플라이언스 프레임워크 종류 : IISO 42001/EU AI Act NIST RMF Build expertise in AI governance, risk, and complianceLearn frameworks like ISO 42001, EU AI Act, and NIST 600Explore topics like LLM vulnerabilities, risk scoring, and policy enforcementDesigned for both executives and hands-on practitioner 주요 글로벌 프레임워크 및 법규1. ISO/IEC 42001:2023 (AI 관리 시스템 국제표준)목적: AI 경영 시스템(AIMS) 구축, 운영, 개선에 관한 요구..

BigData 2025.08.11

AI관리 시스템 표준 ISO 42001 핵심 요구사항 정리

AI관리 시스템 표준 ISO 42001 핵심 요구사항 정리*ISO/IEC 42001:2023은 AI 거버넌스를 위한 체계적인 프레임워크를 제공하는 인공지능 관리 시스템(AIMS)의 최신 표준 *ISO/IEC 42001의 핵심 구성 요소ISO/IEC 42001은 AI 시스템을 개발, 배포 또는 관리하는 조직에 맞춰 개발된 포괄적인 AI 프레임워크AI 관리 시스템(AIMS) 구축AI 프로젝트, AI 모델 및 데이터 거버넌스 관행을 관리하기 위한 체계적인 프레임워크입니다.AI 위험 관리편견, 책임성, 데이터 보호를 포함한 AI와 관련된 위험을 식별, 평가 및 완화합니다.윤리적 AI 원칙AI 개발 및 배포에 있어 투명성, 공정성, 책임을 장려합니다.지속적인 모니터링 및 개선AI 성능을 검토하고 AI 거버넌스 전..

BigData 2025.08.11

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백을 통한 강화 학습) 모델 구현 절차

RLHF(Reinforcement Learning from Human Feedback) 모델 구현 절차 RLHF( “인간 피드백을 통한 강화 학습” ) 이란?RLHF는 “인간 피드백을 통한 강화 학습”으로, 인간 선호를 반영하여 AI(특히 대형 언어모델, LLM)가 사람이 선호하는 방향으로 동작하도록 만드는 대표적인 머신러닝 파이프라인입니다. 정확한 보상함수를 정의하기 어려운 복잡·주관적 목표(예: 진실성, 안전성, 유용성 등)에 매우 적합합니다 * RLHF는 인간 직관이 중요한 복잡/주관적인 과제를 다룰 때, “사람이 뽑은 기준”을 깊이 녹이는 기법* 인간의 직관/가치관/측정이 어렵지만 평가(판단)는 쉬운 복잡한 과제(예: 유해성 최소화, 안전성/진실성 극대화 등)에서 “정확한 loss를 공식화”하는..

BigData 2025.08.02

Supervised Fine-Tuning(SFT)과 Direct Preference Optimization(DPO), RLHF(Reinforcement Learning from Human Feedback) 비교

Supervised Fine-Tuning(SFT) Direct Preference Optimization(DPO), RLHF(Reinforcement Learning from Human Feedback) 비교SFT, DPO, RLHF 비교: 목적과 개념구분SFT (Supervised Fine-Tuning)DPO (Direct Preference Optimization)RLHF (Reinforcement Learning from Human Feedback)구분SFTDPORLHF목적명확한 정답(task/문제)에 맞춘 1차 파인튜닝인간 선호에 직접 맞추는 미세조정인간 피드백을 바탕으로 RL로 정책(=모델) 미세조정핵심 아이디어정해진 레이블(정답) 데이터로 지도학습"좋은/나쁜" 선택 쌍 기반, 선호응답 확률 ↑..

BigData 2025.08.02

Supervised Fine-Tuning(SFT)과 Direct Preference Optimization(DPO)

Supervised Fine-Tuning(SFT)과 Direct Preference Optimization(DPO)SFT는 "정답을 알려주는" 데이터셋에서 모델을 지도 학습하는 전통적 방식.DPO는 사람이 직접 특정 응답을 더 선호한다고 표현한 데이터로, 보상모델/강화학습 없이도 효과적으로 인간 선호를 반영하게 하는 최신 미세조정 기법입니다.Supervised Fine-Tuning (SFT) - 사전학습(pretraining)된 언어 모델(LLM)에 대해, 사람이 정답을 제공한 데이터(질문-정답 쌍 등)를 이용해 추가적으로 학습시키는 과정- 모델이 주어진 입력에 “정답” 또는 “이상적인 반응”을 잘 생성하도록 지도 학습(supervised learning) 방식으로 모델 파라미터를 조정- 주로 instr..

BigData 2025.08.02
728x90
반응형