728x90
반응형

BigData 120

DBMS Join

[BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join DBMS의 Join은 여러 테이블을 연결해 하나의 결과로 보여주는 SQL 기능으로, 공통된 컬럼(조인 키)을 기준으로 데이터를 결합합니다. 대표적으로 INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN 등이 있습니다. 🔍 JOIN의 개념정의: 두 개 이상의 테이블을 연결하여 관련 데이터를 하나의 결과로 조회하는 SQL 기능목적:정규화된 테이블을 분석/조회 목적에 맞게 통합중복 없이 정확한 데이터 연결업무 로직에 맞는 데이터 집합 ..

BigData 2025.11.18

Large DB (데이터베이스)의 Hash Join

[BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join Large DB (데이터베이스)의 Hash JoinLarge DBMS에서 Hash Join은 대용량 테이블 조인 성능을 최적화하는 알고리즘으로, 작은 테이블을 메모리에 해시 테이블로 적재하고, 큰 테이블을 탐색하며 매칭되는 값을 찾는 방식입니다. 등식 조건(=) 기반 조인에서 효과적이며, 높은 CPU와 메모리 자원을 사용하는 대신, 랜덤 액세스와 정렬 부담을 줄여 대용량 데이터에 적합합니다.조인 알고리즘의 기본 문제는 조인 속성의 각 고유 값에 대해, 각 릴레이션에서..

BigData 2025.11.16

Large DB (데이터베이스)의 Nested Loop Join

Large DB (데이터베이스)의 Nested Loop Join [BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join Nested Loop Join(중첩 루프 조인)은 데이터베이스에서 두 테이블을 조인할 때 가장 기본적인 방법 중 하나입니다. 특히 대용량 데이터베이스(Large DB)에서는 성능과 자원 효율화가 중요한 이슈가 됩니다.Nested Loop Join 개념Nested Loop Join은 두 테이블(예: 테이블 A와 테이블 B)을 조인할 때, 하나의 테이블(외부 테이블)의 각 행을 순차적으로 읽고, 그 ..

BigData 2025.11.16

Large DB (데이터베이스)의 Sort-Merge Join

Large DB (데이터베이스)의 Sort-Merge Join (소트-머지 조인) [BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join DB (데이터베이스)의 **Sort-Merge 조인(소트-머지 조인)**은 두 테이블을 조인하는 대표적인 알고리즘 중 하나입니다. 이름 그대로 '정렬(Sort)' 단계와 '병합(Merge)' 단계를 거쳐 조인을 수행합니다.⚙️ Sort-Merge 조인의 개념과 특징Sort-Merge 조인은 두 단계로 작동합니다.정렬 (Sort) 단계:조인에 사용할 두 개의 테이블(A, B)을 **조인..

BigData 2025.11.16

YugabyteDB를 이용한 Claude Desktop MCP 서버 설치

YugabyteDB를 이용한 Claude Desktop MCP 서버 설치MCP란?MCP(Model Context Protocol)는 대규모 언어 모델(LLM)이 일관되고 표준화된 방식으로 기존 엔터프라이즈 서비스와 상호 작용할 수 있도록 하는 새로운 표준입니다. 즉) MCP 서버는 AI가 외부 시스템과 연결되도록 커스텀 API 통합 할 수 있는 표준 인터페이스 입니다. MCP 서버로 LLM(예: Claude)이 자연어로 YugabyteDB에 직접 접근하고 데이터를 분석할 수 있도록 해주는 Python 기반 경량 서버를 구성 할 수 있습니다 yugabyte.com. ⚙️ MCP의 필요성개발자 : MCP는 AI 애플리케이션이나 에이전트를 구축하거나 통합할 때 개발 시간과 복잡성을 줄여줍니다.AI 애플리케..

BigData 2025.10.14

분산DB-YugabyteDB - 클라우드 네이티브 분산 SQL 데이터베이스 설치 가이드

(Linux)YugabyteDB Quick start | YugabyteDB Docs(MacOS) YugabyteDB Quick start | YugabyteDB Docs🧠 YugabyteDB란?YugabyteDB는 오픈 소스이며, 클라우드 네이티브 환경에 최적화된 분산 SQL 데이터베이스입니다. PostgreSQL과 호환되며, 고가용성과 확장성을 갖춘 구조로 설계되어 있어 대규모 클라우드 애플리케이션에 적합합니다. 🔍 주요 특징오픈 소스: 누구나 자유롭게 사용하고 수정할 수 있으며, 커뮤니티 중심으로 발전합니다.클라우드 네이티브: 퍼블릭 클라우드, 프라이빗 클라우드, Kubernetes 환경 등 다양한 클라우드 인프라에 쉽게 배포 가능.분산 SQL: 데이터를 여러 노드에 분산 저장하면서도 SQL ..

BigData 2025.10.14

Presidio: Data Protection and De-identification

Microsoft Presidio: Data Protection and De-identification Presidio(라틴어 praesidium '보호, 수비대'에서 유래)는 민감한 데이터를 적절하게 관리하고 통제하는 데 도움이 됩니다. 다음과 같은 텍스트 및 이미지의 개인 엔터티에 대한 빠른 식별 및 익명화 모듈을 제공합니다. 신용카드 번호, 이름, 위치, 주민등록번호, 비트코인 지갑, 미국 전화번호, 금융 데이터 등. 주요특징개인식별정보(PII) 탐지 및 익명화: 이름, 이메일 주소, 신용카드 번호, 전화번호, 위치, 비트코인 지갑 주소, 사용자 정의 PII 등 광범위한 PII 유형을 탐지하고 비식별화합니다PII 식별 및 익명화의 사용자 정의 가능성.유연하고 확장 가능: 정규 표현식(Regex),..

BigData 2025.10.10

예시로 보는 *PyTorch 기반의 "DDPM(Denoising Diffusion Probabilistic Model)"* - 이미지생성모델

예시로 보는 PyTorch 기반의 "DDPM(Denoising Diffusion Probabilistic Model)"핵심 원리(노이즈 추가 및 제거)를 이해하기 쉽고, 실제로 학습 및 샘플 생성까지 코드PyTorch 기반의 DDPM(Denoising Diffusion Probabilistic Model)은 이미지 생성 분야에서 가장 강력하고 안정적인 모델 중 하나로 평가받고 있어요. 아래에 DDPM의 핵심 개념과 PyTorch 구현 예시 입니다. 🧠 DDPM 핵심 개념 요약 작동 단계설명Forward Process (q)원본 이미지에 점진적으로 Gaussian 노이즈를 추가해 완전히 파괴된 이미지 (x_T)로 변환Reverse Process (p)파괴된 이미지 (x_T)에서 점진적으로 노이즈를 제거..

BigData 2025.08.29

인공지능 모델 연구 - Diffusion 합성데이터 기술의 부각

인공지능 모델 연구 - Diffusion 합성데이터 기술의 부각Diffusion은 물리학적 확산 모델을 기반으로, 노이즈에서 점진적으로 데이터를 복원하는 방식이에요. 딥러닝 기반 생성 모델은 주로 인코더-디코더 또는 생성자-판별자 구조로, 빠르게 결과를 생성하지만 품질이나 안정성에서 한계가 있었죠.Diffusion은 특히 합성 데이터의 다양성과 품질, 시간적 일관성에서 뛰어난 성능을 보여주며, 최근에는 멀티모달 AI의 핵심 기술로 자리잡고 있습니다.딥러닝 기반 생성 모델 vs Diffusion 모델합성 데이터 기술의 발전은 최근 몇 년 사이에 딥러닝 기반 생성 모델에서 Diffusion 모델로 빠르게 진화하고 있습니다. 두 기술의 접근 방식과 특성에서 차이가 있습니다. 🧠 Diffusion vs 딥러..

BigData 2025.08.29

(합성데이터) 텍스트 기반 생성 모델의 종류와 발전

텍스트 기반 생성 모델의 기술 발전은 2000년대 초반 간단한 시퀀스 모델에서 시작해, 딥러닝 기반 트랜스포머(Transformer)와 초대형 언어 모델(LLM, Large Language Model)까지 혁신적으로 성장했습니다. 주요 발전 흐름은 다음과 같습니다.1. 시퀀스 모델 (2000~2010년대 초반)RNN(순환신경망)·LSTM(장기단기메모리): 시퀀스 데이터(문장 등) 처리와 예측에 특화. 그러나 장기 의존성(문장이 길 경우 정보 손실) 문제와 학습 속도 한계 존재.Word Embedding: Word2Vec, GloVe 등 단어를 벡터로 변환해 의미(semantic)를 내포함. 단어 간의 유사성/관계 학습이 가능해짐. 2. Attention과 Transformer의 시대 (2017~)Tran..

BigData 2025.08.24

동영상 합성 데이터 기술의 발전과 생성 모델의 특징

동영상 합성 데이터 기술의 발전은 이미지 생성 AI와 마찬가지로, 기초 머신러닝 → GAN → Diffusion/Transformer → 텍스트-투-비디오 및 멀티모달 구조로 대단히 빠르게 진화해왔습니다. 주요 발전 흐름과 특징은 아래와 같습니다.1. 초기 (2000년대~2010년대)디지털 편집·Morphing: 초창기 영상 합성은 종래 ML 및 디지털 편집, 치환, 마스킹 기반으로 저차원 효과 구현.VAE/RNN/CNN 등 기본 신경망 활용: 동적으로 영상 프레임을 생성하거나 보간하는 연구, 데이터 정규화 및 품질 향상에 집중.실제 응용: 영상 복원, 간단 얼굴 합성, 애니메이션 등 한정적 영역에 주로 사용됨.2. GAN 기반 동영상 합성 (2016~2021)GAN(Generative Adversari..

BigData 2025.08.22

인공지능-합성데이터- 의료.헬스 분야 데이터 합성의 발전과 모델의 특징

의료 분야 데이터 합성에서 생성형 모델의 발전 동향은 안전하고 신뢰할 수 있는 의료 AI 연구의 필수 요소로, 개념적·기술적 진화가 매우 활발하게 이루어지고 있습니다.1. 2000~2010년대 : 기초 머신러닝 및 VAE, GAN 도입기초 ML, VAE, GAN 활용하여 의료 영상·진단용 합성 데이터 생성.합성 데이터로 개인정보 보호, 데이터 부족 문제 완화.초기 GAN 기반 연구로, MRI/CT/엑스레이 등 의료 이미지 품질 증강 및 데이터 증강[1][2][3].품질 평가, 원본 대비 유사도 평가, 데이터 정화 기술이 연구됨.2. 2010~2020년대 : 고도화된 GAN/Diffusion/Deep LearningStyleGAN, DCGAN, PGGAN 등 고해상도 GAN 도입. 의료 영상 분류에서 데이..

BigData 2025.08.22

다변량확률변수(multivariate random variable)와 말단 확률변수(marginal random variable)의 관계

다변량확률변수(multivariate random variable)와 말단 확률변수(marginal random variable)의 관계다변량확률변수를 다루면서 우리는 이를 이루고 있는 각각의 말단 확률변수 (marginal random variable) 만으로는 전체 다변량확률변수를 100% 설명할 수 없다.왜 각각의 말단 확률분포만으로는 전체 다변량확률변수 전체를 100% 설명할 수 없는지 쉽게 풀어서 설명합니다.다변량확률변수란?정의: 여러 개의 확률변수가 한꺼번에 모여 이루는 확률변수 집합을 의미합니다.예시: (키, 체중), (주가1, 주가2, 환율), (수입, 지출, 저축) 등특징: 각 변수들은 개별적으로 분포를 가질 수도 있고, 서로 간에 *관계(상관, 의존성)*가 있을 수 있습니다.예를 들어,..

BigData 2025.08.18

데이터합성 - 코풀라 기반 모델 vs 확률적 그래픽 모델 (PGM)

데이터합성 - 코풀라 기반 모델 vs 확률적 그래픽 모델 (PGM) 코풀라(Copula) 모델코풀라(Copula) 모델은 각 변수의 분포와 그 사이의 의존 구조를 따로따로 떼어서 분석, 복잡한 상관관계를 섬세하게 다루는 데 특화되어 있습니다.전통적인 방법: 여러 변수(예: 주식A와 주식B)의 결합분포를 직접 구하려면 그 모든 변수가 동시에 어떻게 움직이는지 복잡하게 계산해야 합니다.코풀라 방법: 각각의 변수는 자기만의 분포(마진 분포)를 적당한 방식으로 각각 추정하고, 이들 사이의 종속 구조(의존성)는 코풀라 함수라는 한 가지 별개의 함수로 따로 모델링합니다코풀라를 활용하면,각 변수의 기본적인 분포와변수들 사이의 ‘복잡한 연결’(의존성)을‘따로따로 간단하게’ 다룬 후 마지막에 합칠 수 있으니, 여러 변..

BigData 2025.08.18

GAN(Generative Adversarial Network, 생성적 적대 신경망) 활용한 합성 . 생성 데이터 모델의 발전 동향과 특징

GAN(Generative Adversarial Network, 생성적 적대 신경망)을 활용한 합성 데이터 및 생성 데이터 모델은 2014년 등장 이후로 이미지, 음성, 텍스트, 표형 데이터 등 다양한 분야에서 혁신적으로 발전해왔습니다. 주요 발전 흐름을 정리하면 다음과 같습니다.1. GAN의 기본 개념 등장과 초기 연구 (2014~2016)2014년 Goodfellow의 GAN모델 제안: Generator와 Discriminator의 대립 구조를 통해 학습하는 방식으로, 데이터 분포를 모사하는 새로운 접근을 제시.기본 구조: Generator(생성자)가 합성 데이터를 생성하고, Discriminator(판별자)가 진짜/가짜를 감별하며 경쟁적으로 학습.핵심 성과: 기존 머신러닝 기반 합성 데이터 품질 한..

BigData 2025.08.15

차등 프라이버시(Differential Privacy, DP)기반 합성.생성 데이터 모델의 발전 동향과 모델 특징

차등 프라이버시(Differential Privacy, DP)를 기반으로 한 합성 데이터 및 생성 데이터 모델의 발전 동향은 개인정보 보호라는 시대적 요구에 따라 실제적 데이터 분석, 머신러닝, 생성형AI 등 다양한 분야로 빠르게 확장되고 있습니다.1. 개념 및 초기 연구 (2010년대 중반까지)차등 프라이버시 정의: 데이터 처리/분석 결과가 특정 개인의 포함 여부와 무관하게 거의 동일하도록 ‘노이즈’를 주입하는 수학적 기술.기초적 적용법: 간단한 데이터 분석(통계, 카운트)에 노이즈 추가하는 방식이 주로 활용됨.2. 고도화 및 생성모델과의 결합 (2017~2022)DP+머신러닝 모델 결합: DP-SGD(차등 프라이버시 확률적 경사하강법) 기법이 개발되어 딥러닝/신경망 모델 학습에도 적용(Abadi et..

BigData 2025.08.15

LLM(Large Language Model) 기반 생성.합성데이터 기술의 발전 동향과 특징

LLM(Large Language Model)을 기반으로 한 생성형 데이터 및 합성데이터 기술의 발전 동향은 자연어처리(NLP)를 넘어서 코드, 이미지, 멀티모달, 헬스 등 다양한 분야로 확장되고 있습니다. 여기서는 핵심 발전 흐름과 최신 트렌드를 정리합니다.1. 대형 언어모델 기반의 생성·합성 기술 초기 (2020~2022)GPT-2, GPT-3의 등장: 수십억~수조 파라미터 기반의 언어모델로 텍스트 생성, 요약, 번역, 질의응답, 데이터 증강 등에 활용.기존 텍스트 생성 기술을 뛰어넘어, 진짜 사람 글과 구분 어려운 고품질 문장·토픽 생산 가능.2. 범용(Foundation) 모델 및 멀티모달 전환 (2022~2023)GPT-4·Gemini·LLaMA 등: 상업·오픈소스 초대형 LLM의 등장, 자연어..

BigData 2025.08.15

머신러닝 기반 생성(합성)데이터 기술의 발전과 모델의 특징

아래는 머신 러닝 기반 생성(합성) 데이터 모델 종류를 연구한 논문 및 자료를 2000년대, 2010년대, 2020년대, 2023년 이후로 구분하여 표로 정리한 내용입니다. 각 분류 항목별로 빠짐없이 정리했습니다.생성 데이터 유형비식별 수준생성모델명공격 취약점취약점 방어/개선 기술구현 기술구현 기술 난이도연구시기연구 논문 명 또는 주요 자료 요약발간연도이미지, 텍스트낮음~중오토인코더, GMM, PCA단순 구조, 복원, 정보 유출치환, 마스킹Masking, 치환, ML낮음~보통2000년대Autoencoder 개념 및 ML 기반 데이터 생성/복원 연구[1]2006이미지, 음성중~높음VAE노이즈, 흐린 품질노이즈 주입, 정규화VAE, Deep Learning, 차등, 노이즈보통~높음2010년대Variation..

BigData 2025.08.15

LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제

LLM을 활용 하기 위해 고려할 AI와 Data 활용 사이클의 실제AI의 가치는 단순히 ‘데이터 투입 → AI → 가치’로 생성되지 않는다.- 데이터 수집, 전처리, 모델링, 배포·운영 그리고 법적·윤리적 관리 등 다양한 과정이 실제 배치와 성공적인 가치 창출에 필수적이다.1. 기업이 생각하는 AI 프로세스 (단순화된 관점)- Data → AI → Value - 기업들은 데이터를 입력하면 곧바로 AI가 작동해 손쉽게 비즈니스 가치(Value)를 창출한다고 여기기 쉽다. - 이 과정에서는 중간 단계나 실제 활동들이 드러나지 않는다. 2. 실제 AI·데이터 사이클 (현실적인 관점)- Data → Data Science → Value - 실제로는 여러 복잡한 단계와 협업이 필요하다.(1) Data 관리 ..

BigData 2025.08.15

AI 거버넌스, 리스크 및 컴플라이언스 프레임워크 종류 : ISO 42001/EU AI Act NIST RMF

AI 거버넌스, 리스크 및 컴플라이언스 프레임워크 종류 : IISO 42001/EU AI Act NIST RMF Build expertise in AI governance, risk, and complianceLearn frameworks like ISO 42001, EU AI Act, and NIST 600Explore topics like LLM vulnerabilities, risk scoring, and policy enforcementDesigned for both executives and hands-on practitioner 주요 글로벌 프레임워크 및 법규1. ISO/IEC 42001:2023 (AI 관리 시스템 국제표준)목적: AI 경영 시스템(AIMS) 구축, 운영, 개선에 관한 요구..

BigData 2025.08.11
728x90
반응형