728x90
반응형

BigData 126

(AI모델) 임베딩 전용 모델과 생성 모델 차이

(AI모델) 임베딩 전용 모델과 생성 모델 차이LSE(Self-Evolving Learning)** 프레임워크에서 `nomic-embed-text`와 같은 **임베딩 전용 모델**을 사용 차이점LSE(Self-Evolving Learning) 프레임워크에서 nomic-embed-text와 같은 임베딩 전용 모델을 사용하는 것과, Llama 3, Qwen 3.5 같은 생성형 모델(LLM)을 사용하는 것은 역할과 성능 면에서 근본적인 차이가 있습니다. 사례를 찾을 때는 임베딩 모델(Nomic)을, 분석하고 수정안을 쓸 때는 생성 모델(Llama/Qwen)을 사용ㅁ 임베딩 전용 모델은 ‘검색과 의미 매칭’에 특화된 초고속·경량 모델이고, 생성 모델은 ‘추론과 텍스트 생성’에 강점을 가진 대규모 언어모델입니다...

BigData 2026.04.15

(AI의 성장 일기) 인공지능, 어디까지 왔을까?

(AI의 성장 일기) 인공지능, 어디까지 왔을까?✨인공지능(AI)은 지난 수십 년 동안 눈부신 발전을 거듭해 왔습니다. 단순히 계산을 돕던 시절에서 이제는 스스로 목표를 세우고 행동하는 단계까지 진화했죠. 오늘은 AI의 발전 단계를 시간 순으로 정리해 보겠습니다. 인공지능(Artificial Intelligence)은 인간의 학습, 추론, 지각, 언어 이해 등과 같은 지적 능력을 모방하여 컴퓨터나 기계로 구현하는 기술입니다.핵심: 컴퓨터가 데이터를 통해 배우고(머신러닝), 스스로 문제를 해결하거나 창의적인 결과물(생성형 AI)을 만들어내는 기술입니다.분류: 학문적인 표현으로 현재는 특정 영역에서만 능력을 발휘하는 '약인공지능(ANI)'이 주류입니다. 👉 인공지능의 발전 원동력 (3대 요소)데이터(Dat..

BigData 2026.04.09

신사업의 성장법칙 - 앤스로픽(Anthropic) 중심으로

신사업의 성장법칙 - 앤스로픽(Anthropic) 중심으로앤스로픽(Anthropic)의 설립 배경과 기술적 지향점, 그리고 MCP 및 바이브 코딩 전략을 바탕으로 요청하신 세 가지 관점에서 내용을 정리1. 세상의 변화 징후: 사업의 시작과 동기앤스로픽은 2021년 설립된 미국의 인공지능 스타트업이다. 주요 초기 투자사로 아마존 (80억달러,한화 12조 : 2023년 40억달러, 24년 40억달러 ), 구글 (Google, 총 30억 달러: 23년, 20억달러, 25년 10억달러), 2025년 9월 (시리즈 F 라운드, 약 130억달러, 기업가치 1,830억 달러 인정), 2026년 2월 ( 시리즈 G 라운드, 300억 달러 유치) 등으로 대규모 자본을 확보하였다. 앤스로픽은 이러한 대규모 자금을 바탕으로..

BigData 2026.04.01

앤스로픽(Anthropic)의 AI전략

앤스로픽(Anthropic)의 행보를 바탕으로, 기업의 설립 배경, 목적, 그리고 안전한AI와 MCP(Model Context Protocol) 으로 대변되는 향후 방향성에 대해 핵심적인 질문과 답변 형태로 정리해 드립니다.1. 설립 배경: "왜 앤스로픽이 탄생했는가?"Q: 앤스로픽은 왜 OpenAI에서 독립하여 설립되었나요?A: 앤스로픽은 2021년, OpenAI의 전 임원들이었던 다리오 아모데이(Dario Amodei)와 다니엘라 아모데이(Daniela Amodei) 남매를 주축으로 설립되었습니다. 당시 OpenAI가 마이크로소프트로부터 대규모 투자를 받으며 상업적 방향으로 선회하자, **'AI 안전성(Safety)'과 '신뢰할 수 있는 모델 개발'**이라는 가치를 최우선으로 지키기 위해 독립적인 ..

BigData 2026.04.01

AI플랫폼이 세상의 문명을 바꾸고 있다.

인공지능은 알고리즘 기반의 기술 도구에서 학습 모델로 발전하였고, LLM(대규모 언어 모델)을 기반으로 사용자의 의도와 지식의 바탕을 이해하여 요약과 생성이 가능해졌습니다. 이러한 발전은 단순한 텍스트 생성에서 시작하여, 이제는 다양한 분야에서 활용되고 있습니다. LLM은 자연어 처리(NLP) 분야에서 특히 두드러진 성과를 보이고 있으며, 이는 인공지능의 진화에 큰 기여를 하고 있습니다.1. 인공지능과 LLM의 개념인공지능(AI)은 기계가 인간의 지능을 모방하여 문제를 해결하고 학습하는 기술입니다. LLM은 이러한 인공지능의 한 분야로, 대량의 텍스트 데이터를 학습하여 자연어를 이해하고 생성하는 모델입니다. LLM은 사용자의 질문에 대한 답변을 생성하거나, 주어진 텍스트를 요약하는 등의 작업을 수행할 수..

BigData 2026.04.01

Local LLM구축 - Ollama에서 Llama3 수동 설치 및 맞춤형 모델 사용

Local LLM구축 - Ollama에서 Llama3 수동 설치 및 맞춤형 모델 사용- llama3 + ollama 모델 다운로드 와 등록네트워크 제한이 있는 환경이거나, 특정 양자화(Quantization) 버전의 GGUF 파일을 직접 사용하고 싶을 때 Ollama의 Modelfile을 활용하면 매우 편리합니다. 이번 포스팅에서는 Llama3 모델 다운로드부터 사용자 정의 모델 생성까지의 전 과정을 정리합니다.Ollama 설치와 모델 등록 작업 순서1. GGUF 파일 다운로드: 모델 파일 확보2.Modelfile 작성: 모델 설정 및 파라미터 정의3. 모델 생성: ollama create 명령어로 등록 : ollama create my-llama3 -f Modelfile4. 실행 및 검증: ollam..

BigData 2026.02.14

DBMS Join

[BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join DBMS의 Join은 여러 테이블을 연결해 하나의 결과로 보여주는 SQL 기능으로, 공통된 컬럼(조인 키)을 기준으로 데이터를 결합합니다. 대표적으로 INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN 등이 있습니다. 🔍 JOIN의 개념정의: 두 개 이상의 테이블을 연결하여 관련 데이터를 하나의 결과로 조회하는 SQL 기능목적:정규화된 테이블을 분석/조회 목적에 맞게 통합중복 없이 정확한 데이터 연결업무 로직에 맞는 데이터 집합 ..

BigData 2025.11.18

Large DB (데이터베이스)의 Hash Join

[BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join Large DB (데이터베이스)의 Hash JoinLarge DBMS에서 Hash Join은 대용량 테이블 조인 성능을 최적화하는 알고리즘으로, 작은 테이블을 메모리에 해시 테이블로 적재하고, 큰 테이블을 탐색하며 매칭되는 값을 찾는 방식입니다. 등식 조건(=) 기반 조인에서 효과적이며, 높은 CPU와 메모리 자원을 사용하는 대신, 랜덤 액세스와 정렬 부담을 줄여 대용량 데이터에 적합합니다.조인 알고리즘의 기본 문제는 조인 속성의 각 고유 값에 대해, 각 릴레이션에서..

BigData 2025.11.16

Large DB (데이터베이스)의 Nested Loop Join

Large DB (데이터베이스)의 Nested Loop Join [BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join Nested Loop Join(중첩 루프 조인)은 데이터베이스에서 두 테이블을 조인할 때 가장 기본적인 방법 중 하나입니다. 특히 대용량 데이터베이스(Large DB)에서는 성능과 자원 효율화가 중요한 이슈가 됩니다.Nested Loop Join 개념Nested Loop Join은 두 테이블(예: 테이블 A와 테이블 B)을 조인할 때, 하나의 테이블(외부 테이블)의 각 행을 순차적으로 읽고, 그 ..

BigData 2025.11.16

Large DB (데이터베이스)의 Sort-Merge Join

Large DB (데이터베이스)의 Sort-Merge Join (소트-머지 조인) [BigData의 Join 기초]- DBMS Join- Large DB (데이터베이스)의 Hash Join- Large DB (데이터베이스)의 Nested Loop Join- Large DB (데이터베이스)의 Sort-Merge Join DB (데이터베이스)의 **Sort-Merge 조인(소트-머지 조인)**은 두 테이블을 조인하는 대표적인 알고리즘 중 하나입니다. 이름 그대로 '정렬(Sort)' 단계와 '병합(Merge)' 단계를 거쳐 조인을 수행합니다.⚙️ Sort-Merge 조인의 개념과 특징Sort-Merge 조인은 두 단계로 작동합니다.정렬 (Sort) 단계:조인에 사용할 두 개의 테이블(A, B)을 **조인..

BigData 2025.11.16

YugabyteDB를 이용한 Claude Desktop MCP 서버 설치

YugabyteDB를 이용한 Claude Desktop MCP 서버 설치MCP란?MCP(Model Context Protocol)는 대규모 언어 모델(LLM)이 일관되고 표준화된 방식으로 기존 엔터프라이즈 서비스와 상호 작용할 수 있도록 하는 새로운 표준입니다. 즉) MCP 서버는 AI가 외부 시스템과 연결되도록 커스텀 API 통합 할 수 있는 표준 인터페이스 입니다. MCP 서버로 LLM(예: Claude)이 자연어로 YugabyteDB에 직접 접근하고 데이터를 분석할 수 있도록 해주는 Python 기반 경량 서버를 구성 할 수 있습니다 yugabyte.com. ⚙️ MCP의 필요성개발자 : MCP는 AI 애플리케이션이나 에이전트를 구축하거나 통합할 때 개발 시간과 복잡성을 줄여줍니다.AI 애플리케..

BigData 2025.10.14

분산DB-YugabyteDB - 클라우드 네이티브 분산 SQL 데이터베이스 설치 가이드

(Linux)YugabyteDB Quick start | YugabyteDB Docs(MacOS) YugabyteDB Quick start | YugabyteDB Docs🧠 YugabyteDB란?YugabyteDB는 오픈 소스이며, 클라우드 네이티브 환경에 최적화된 분산 SQL 데이터베이스입니다. PostgreSQL과 호환되며, 고가용성과 확장성을 갖춘 구조로 설계되어 있어 대규모 클라우드 애플리케이션에 적합합니다. 🔍 주요 특징오픈 소스: 누구나 자유롭게 사용하고 수정할 수 있으며, 커뮤니티 중심으로 발전합니다.클라우드 네이티브: 퍼블릭 클라우드, 프라이빗 클라우드, Kubernetes 환경 등 다양한 클라우드 인프라에 쉽게 배포 가능.분산 SQL: 데이터를 여러 노드에 분산 저장하면서도 SQL ..

BigData 2025.10.14

Presidio: Data Protection and De-identification

Microsoft Presidio: Data Protection and De-identification Presidio(라틴어 praesidium '보호, 수비대'에서 유래)는 민감한 데이터를 적절하게 관리하고 통제하는 데 도움이 됩니다. 다음과 같은 텍스트 및 이미지의 개인 엔터티에 대한 빠른 식별 및 익명화 모듈을 제공합니다. 신용카드 번호, 이름, 위치, 주민등록번호, 비트코인 지갑, 미국 전화번호, 금융 데이터 등. 주요특징개인식별정보(PII) 탐지 및 익명화: 이름, 이메일 주소, 신용카드 번호, 전화번호, 위치, 비트코인 지갑 주소, 사용자 정의 PII 등 광범위한 PII 유형을 탐지하고 비식별화합니다PII 식별 및 익명화의 사용자 정의 가능성.유연하고 확장 가능: 정규 표현식(Regex),..

BigData 2025.10.10

예시로 보는 *PyTorch 기반의 "DDPM(Denoising Diffusion Probabilistic Model)"* - 이미지생성모델

예시로 보는 PyTorch 기반의 "DDPM(Denoising Diffusion Probabilistic Model)"핵심 원리(노이즈 추가 및 제거)를 이해하기 쉽고, 실제로 학습 및 샘플 생성까지 코드PyTorch 기반의 DDPM(Denoising Diffusion Probabilistic Model)은 이미지 생성 분야에서 가장 강력하고 안정적인 모델 중 하나로 평가받고 있어요. 아래에 DDPM의 핵심 개념과 PyTorch 구현 예시 입니다. 🧠 DDPM 핵심 개념 요약 작동 단계설명Forward Process (q)원본 이미지에 점진적으로 Gaussian 노이즈를 추가해 완전히 파괴된 이미지 (x_T)로 변환Reverse Process (p)파괴된 이미지 (x_T)에서 점진적으로 노이즈를 제거..

BigData 2025.08.29

인공지능 모델 연구 - Diffusion 합성데이터 기술의 부각

인공지능 모델 연구 - Diffusion 합성데이터 기술의 부각Diffusion은 물리학적 확산 모델을 기반으로, 노이즈에서 점진적으로 데이터를 복원하는 방식이에요. 딥러닝 기반 생성 모델은 주로 인코더-디코더 또는 생성자-판별자 구조로, 빠르게 결과를 생성하지만 품질이나 안정성에서 한계가 있었죠.Diffusion은 특히 합성 데이터의 다양성과 품질, 시간적 일관성에서 뛰어난 성능을 보여주며, 최근에는 멀티모달 AI의 핵심 기술로 자리잡고 있습니다.딥러닝 기반 생성 모델 vs Diffusion 모델합성 데이터 기술의 발전은 최근 몇 년 사이에 딥러닝 기반 생성 모델에서 Diffusion 모델로 빠르게 진화하고 있습니다. 두 기술의 접근 방식과 특성에서 차이가 있습니다. 🧠 Diffusion vs 딥러..

BigData 2025.08.29

(합성데이터) 텍스트 기반 생성 모델의 종류와 발전

텍스트 기반 생성 모델의 기술 발전은 2000년대 초반 간단한 시퀀스 모델에서 시작해, 딥러닝 기반 트랜스포머(Transformer)와 초대형 언어 모델(LLM, Large Language Model)까지 혁신적으로 성장했습니다. 주요 발전 흐름은 다음과 같습니다.1. 시퀀스 모델 (2000~2010년대 초반)RNN(순환신경망)·LSTM(장기단기메모리): 시퀀스 데이터(문장 등) 처리와 예측에 특화. 그러나 장기 의존성(문장이 길 경우 정보 손실) 문제와 학습 속도 한계 존재.Word Embedding: Word2Vec, GloVe 등 단어를 벡터로 변환해 의미(semantic)를 내포함. 단어 간의 유사성/관계 학습이 가능해짐. 2. Attention과 Transformer의 시대 (2017~)Tran..

BigData 2025.08.24

동영상 합성 데이터 기술의 발전과 생성 모델의 특징

동영상 합성 데이터 기술의 발전은 이미지 생성 AI와 마찬가지로, 기초 머신러닝 → GAN → Diffusion/Transformer → 텍스트-투-비디오 및 멀티모달 구조로 대단히 빠르게 진화해왔습니다. 주요 발전 흐름과 특징은 아래와 같습니다.1. 초기 (2000년대~2010년대)디지털 편집·Morphing: 초창기 영상 합성은 종래 ML 및 디지털 편집, 치환, 마스킹 기반으로 저차원 효과 구현.VAE/RNN/CNN 등 기본 신경망 활용: 동적으로 영상 프레임을 생성하거나 보간하는 연구, 데이터 정규화 및 품질 향상에 집중.실제 응용: 영상 복원, 간단 얼굴 합성, 애니메이션 등 한정적 영역에 주로 사용됨.2. GAN 기반 동영상 합성 (2016~2021)GAN(Generative Adversari..

BigData 2025.08.22

인공지능-합성데이터- 의료.헬스 분야 데이터 합성의 발전과 모델의 특징

의료 분야 데이터 합성에서 생성형 모델의 발전 동향은 안전하고 신뢰할 수 있는 의료 AI 연구의 필수 요소로, 개념적·기술적 진화가 매우 활발하게 이루어지고 있습니다.1. 2000~2010년대 : 기초 머신러닝 및 VAE, GAN 도입기초 ML, VAE, GAN 활용하여 의료 영상·진단용 합성 데이터 생성.합성 데이터로 개인정보 보호, 데이터 부족 문제 완화.초기 GAN 기반 연구로, MRI/CT/엑스레이 등 의료 이미지 품질 증강 및 데이터 증강[1][2][3].품질 평가, 원본 대비 유사도 평가, 데이터 정화 기술이 연구됨.2. 2010~2020년대 : 고도화된 GAN/Diffusion/Deep LearningStyleGAN, DCGAN, PGGAN 등 고해상도 GAN 도입. 의료 영상 분류에서 데이..

BigData 2025.08.22

다변량확률변수(multivariate random variable)와 말단 확률변수(marginal random variable)의 관계

다변량확률변수(multivariate random variable)와 말단 확률변수(marginal random variable)의 관계다변량확률변수를 다루면서 우리는 이를 이루고 있는 각각의 말단 확률변수 (marginal random variable) 만으로는 전체 다변량확률변수를 100% 설명할 수 없다.왜 각각의 말단 확률분포만으로는 전체 다변량확률변수 전체를 100% 설명할 수 없는지 쉽게 풀어서 설명합니다.다변량확률변수란?정의: 여러 개의 확률변수가 한꺼번에 모여 이루는 확률변수 집합을 의미합니다.예시: (키, 체중), (주가1, 주가2, 환율), (수입, 지출, 저축) 등특징: 각 변수들은 개별적으로 분포를 가질 수도 있고, 서로 간에 *관계(상관, 의존성)*가 있을 수 있습니다.예를 들어,..

BigData 2025.08.18

데이터합성 - 코풀라 기반 모델 vs 확률적 그래픽 모델 (PGM)

데이터합성 - 코풀라 기반 모델 vs 확률적 그래픽 모델 (PGM) 코풀라(Copula) 모델코풀라(Copula) 모델은 각 변수의 분포와 그 사이의 의존 구조를 따로따로 떼어서 분석, 복잡한 상관관계를 섬세하게 다루는 데 특화되어 있습니다.전통적인 방법: 여러 변수(예: 주식A와 주식B)의 결합분포를 직접 구하려면 그 모든 변수가 동시에 어떻게 움직이는지 복잡하게 계산해야 합니다.코풀라 방법: 각각의 변수는 자기만의 분포(마진 분포)를 적당한 방식으로 각각 추정하고, 이들 사이의 종속 구조(의존성)는 코풀라 함수라는 한 가지 별개의 함수로 따로 모델링합니다코풀라를 활용하면,각 변수의 기본적인 분포와변수들 사이의 ‘복잡한 연결’(의존성)을‘따로따로 간단하게’ 다룬 후 마지막에 합칠 수 있으니, 여러 변..

BigData 2025.08.18
728x90
반응형