'BigData' 카테고리의 글 목록

Chain-of-Thought의 핵심

"사고 사슬(Chain-of-Thought, CoT)"은 인공지능, 특히 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 프롬프트 엔지니어링 기법입니다. 쉽게 말해, 복잡한 문제를 한 번에 해결하는 대신 인간처럼 단계별로 사고 과정을 거쳐 최종 답변에 도달하도록 모델을 유도하는 방식입니다.Chain-of-Thought의 핵심단계별 추론: 복잡한 문제를 작은 논리적인 단계로 분해하여 각 단계를 순차적으로 해결하도록 합니다.중간 과정 설명: 단순히 최종 답변만 제시하는 것이 아니라, 어떻게 그 결론에 도달했는지 중간 과정을 자연어 형태로 설명하게 만듭니다. 이는 모델의 "사고" 과정을 투명하게 보여주는 역할을 합니다.인간의 문제 해결 방식 모방: 인간이 어려운 문제를 풀 때 머릿속으로 생각하거나, ..

BigData 2025.06.19

UPSERT 기능은 기존 레코드가 존재할 경우 업데이트하고, 없을 경우 새로 삽입하는 데이터베이스 연산입니다. 각 데이터베이스마다 구현 방식이 다르며, 다음은 Oracle, MySQL, YugaByte의 문법과 예시를 비교한 내용입니다.데이터베이스별 UPSERT 구현 비교 데이터베이스 문법 유형upsert 예시참고 사항OracleUPSERT 명령어 사용MERGE INTO employees e USING (SELECT 101 AS id, 'Jane Doe' AS name FROM dual) src ON (e.id = src.id) WHEN MATCHED THEN UPDATE SET e.name = src.name WHEN NOT MATCHED THEN INSERT (id, name) VALU..

BigData 2025.06.17

학습 데이터 증폭 및 증강 기술의 역사적 흐름

학습 데이터 증폭 및 증강 기술의 역사적 흐름, 현재 기술 단계, 그리고 기계학습(ML) 및 LLM(GPT) 환경에서의 활용 방안에 대해 이론적 배경, 작동 방식, 활용법을 종합적으로 정리해 드리겠습니다.데이터 증강(Data Augmentation) 기술의 역사와 현재데이터 증강은 제한된 데이터셋을 인위적으로 변형하고 확장하여 모델의 일반화 성능과 강건성(Robustness)을 높이는 기술입니다. AI 발전의 역사와 궤를 같이하며 꾸준히 진화해왔습니다.1. 데이터 증강의 역사적 흐름 📜초기 (1990s ~ 2000s): 레이블 보존 변환 (Label-Preserving Transformation)개념: 데이터의 원본 레이블(정답)이 변하지 않는 선에서 간단한 변형을 가하는 방식입니다.이론 배경: 모델이..

BigData 2025.06.14

학습 데이터 증폭 이론 (1)

네, 인공지능(AI)의 학습 데이터 부족 문제를 해결하고 모델 성능을 향상시키는 데이터 증폭(Data Augmentation) 관련 학습 개념인 전이 학습, 집단 학습, 메타 학습에 대해 각각의 정의, 활용 분야, 장단점 및 최신 방법론을 정리해 드리겠습니다.학습 데이터 증폭을 위한 AI 학습 패러다임데이터 증폭은 제한된 양의 데이터로도 AI 모델이 높은 일반화 성능을 갖도록 훈련 데이터의 양과 다양성을 인위적으로 늘리는 기술입니다. 단순히 기존 데이터를 변형하는 것을 넘어, 아래와 같은 고도화된 학습 방법론을 통해 데이터 부족 문제를 근본적으로 해결하려는 시도가 활발히 이루어지고 있습니다.1. 전이 학습 (Transfer Learning) 📚정의전이 학습은 특정 문제(Source Task)를 해결하기..

BigData 2025.06.14

빅테크가 이끄는 인공지능 LLM 기술 동향 - GPT-4.5, Claude 3.7 Sonnet, Gemini 2.5 Pro, DeepSeek

빅테크가 이끄는 인공지능 대규모언어모델 LLM 기술 동향대규모 언어 모델(LLM) 기술 동향: GPT-4.5, Claude 3.7 Sonnet, Gemini 2.5 Pro, 그리고 DeepSeek 비교GPT-4.5, Claude 3.7 Sonnet, Gemini 2.5 Pro, DeepSeek 모델의 특징과 차이점GPT-4.5업체명: Open AI개발년도: 2025년 2월주요 특징: 1T 이상의 파라미터를 가지는 것으로 추정되며, 텍스트와 이미지를 멀티모달로 지원하고 강력한 논리적 추론 능력을 갖추고 있습니다. 빠른 결과 도출을 중시하며 효율적인 추론 구조를 가지고 있습니다.주요 활용 분야: 일반 자연어 처리(NLP) 및 코딩, 문서 자동화, 검색 증강 생성(RAG) 연계에 최적화되어 기업용 워크플로우 ..

BigData 2025.05.21

데이터베이스 튜닝 및 메모리 관리 (PostgreSQL YugabyteDB MySQL SingleStore )

데이터베이스 튜닝 및 메모리 관리 (PostgreSQL YugabyteDB MySQL SingleStore ) 각 데이터베이스 시스템의 논리 데이터베이스 튜닝 및 메모리 관리 튜닝 방법 * 주요 DB 설정 리소스 관리 튜닝 파라미터 비교 *PostgreSQL → YugabyteDB → MySQL → SingleStore 🔹 논리 데이터베이스 튜닝 비교DBMS쿼리 최적화인덱스 관리분산 처리캐싱 전략PostgreSQLpg_stat_statements, EXPLAIN ANALYZEbtree, hash, GIN, BRIN 인덱스 지원기본적으로 단일 노드 운영shared_buffers, effective_cache_size 활용YugabyteDBpg_stat_statements 활용, EXPLAIN ANALY..

BigData 2025.05.21

Cloud Native Database 와 기존 RDB비교- 큐브리드(CUBRID), 오라클(Oracle), MySQL, PostgreSQL, YugabyteDB등

Cloud Native Database 와 기존 RDB비교큐브리드(CUBRID), 오라클(Oracle), MySQL, PostgreSQL, YugabyteDB등 각 DBMS의 주요 기능을 비교 큐브리드 (CUBRID): 대한민국 전자정부 표준 DBMS로 공공기관에서 많이 사용됨. 오픈소스이며 샤딩 기능을 지원. 트랜잭션 및 성능 최적화에 강점.오라클 (Oracle): 기업 및 금융기관에서 널리 사용되는 상용 DBMS. 강력한 보안, 고성능, 파티셔닝 지원. 높은 확장성과 안정성을 제공하지만 비용이 높음.MySQL: 가볍고 빠른 오픈소스 DBMS로 웹 애플리케이션에서 많이 활용됨. 쉬운 설치와 사용이 가능하며, 기본적인 트랜잭션 처리 기능을 갖춤.PostgreSQL: 고급 기능을 갖춘 오픈소스 DBMS로..

BigData 2025.05.20

대규모 언어 모델(LLM) 기술 동향 - GPT-4.5, Claude 3.7 Sonnet, Gemini 2.5 Pro

대규모 언어 모델(LLM) 기술 동향 : GPT-4.5, Claude 3.7 Sonnet, Gemini 2.5 Pro 현황 최근 25년 동안 출시된 주요 대규모 언어 모델(LLM)을 정리하고, 각 모델과 기존 GPT-4의 기능적, 기술적 특징을 비교해 보겠습니다. 1. 주요 LLM 출시 현황 (2000~2025)지난 25년 동안 LLM 기술은 급격히 발전했습니다. 아래는 주요 모델들의 출시 연도와 특징을 정리한 표입니다.출시 연도모델주요 특징2000~2010초기 신경망 기반 모델제한적인 NLP 기능, 규칙 기반 번역2017GPT-1최초의 트랜스포머 기반 모델, 117M 파라미터2019GPT-21.5B 파라미터, 더 자연스러운 텍스트 생성2020GPT-3175B 파라미터, Few-shot Learni..

BigData 2025.05.13

GPT-3 GPT-4와 GPT-5의 뭐가 좋아지나?

GPT-5 GPT-5는 2025년 중반 출시가 예상되며, OpenAI는 이를 통해 AI 기술을 한 단계 더 발전하고 있습니다. OpenAI는 GPT-5를 통해 AGI(인공지능 일반)로의 도약을 목표로 하고 있으며, 개인화된 사용자 경험, 오류 감소, 그리고 더 자연스러운 대화 능력을 강화하고 훨씬 더 강력한 고급 추론 기능과 다중 모드 기능을 단일 시스템으로 통합할 것으로 예상 됩니다.AGI(Artificial General Intelligence, 인공 일반 지능)는 인간의 지능을 전반적으로 모방하는 AI를 의미해요. - 기존 AI(ANI, 특정 목적 AI)는 특정 작업만 수행 했다면 - AGI는 다양한 문제를 해결하고 학습하며 창의적으로 사고할 수 있는 능력- AGI가 현실화된다면, 기계가 인간과 동..

BigData 2025.05.09

MySQL Slave의 Replication 복제 지연 속도 개선팁

MySQL의 Slave Lag(복제 지연) 문제와 Replication 동기화 성능 개선에 대한 내용을 정리해볼게요.🕰 MySQL Slave Lag (복제 지연)MySQL의 레플리케이션(replication) 환경에서 Slave가 Master로부터 변경 사항을 받아 적용하는 과정에서 지연(lag)이 발생할 수 있어요. 주요 원인은 다음과 같습니다:네트워크 지연Master와 Slave 간의 데이터 전송 속도가 느려서 발생하는 문제특히 WAN 환경에서는 네트워크 레이턴시가 높아지면 복제 지연이 심화쿼리 실행 속도 차이Master에서 실행된 쿼리가 Slave에서도 동일하게 실행되는데, Slave의 성능이 낮으면 적용 속도가 느려지며 지연 발생복잡한 UPDATE나 DELETE 문이 많을 경우 Slave의 부하..

BigData 2025.04.23

YugabyteDB의 트랜잭션 디자인이 다른 데이터베이스와 비교했을 때 독특한 점

YugabyteDB는YugabyteDB는 PostgreSQL과 호환되는 고성능 클라우드 네이티브 분산 SQL 데이터베이스입니다. 기존 관계형 데이터베이스의 이점과 NoSQL 시스템의 확장성을 결합하여 트랜잭션 일관성과 대용량 데이터 처리 능력이 모두 필요한 애플리케이션에 적합합니다. 절대적인 데이터 정확성을 요구하고 확장성, 높은 장애 내성, 또는 전 세계적으로 분산된 배포 중 하나 이상을 필요로 하는 클라우드 네이티브 OLTP(즉, 실시간 비즈니스 크리티컬) 애플리케이션에 가장 적합합니다. YugabyteDB의 트랜잭션 디자인을 독특하게 만드는 이유구글 스패너에서 영감을 받은 분산형 ACID 거래YugabyteDB의 트랜잭션 모델은 Google Spanner의 아키텍처를 기반으로 하며, 여러 샤드와 ..

BigData 2025.04.21

YugabyteDB가 멀티마스터 복제를 처리하는 방법

YugabyteDB가 멀티마스터 복제를 처리하는 방법 YugabyteDB가 멀티 마스터 복제를 처리하는 방법YugabyteDB는 서로 다른 지역에서 독립적인 클러스터를 실행하여 멀티마스터(액티브-액티브) 복제를 구현합니다. 각 클러스터는 로컬 읽기와 쓰기를 처리할 수 있습니다. 데이터는 xCluster 복제를 사용하여 클러스터 간에 비동기적으로 복제됩니다[1][2][3].복제 모드: 클러스터 간의 복제는 비동기식이므로 데이터 변경이 지역 간에 즉시 보이지 않습니다. 이는 낮은 지연 시간의 로컬 작업을 보장하지만 궁극적인 일관성을 제공합니다[1][2].충돌 해결: 동일한 데이터가 복제되기 전에 여러 클러스터에서 업데이트될 경우, "마지막 작성자가 승리" 전략을 사용하여 충돌을 해결합니다. 이 전략에서는 마..

BigData 2025.04.21

LLM의 종류와 특징 비교

LLM의 종류와 특징 비교 주요 LLM 종류 와 특징 모델명 대표 버전/용량 성능/기능 특징 오픈소스 여부 지원 환경 확장 기능/특이점 GPT 시리즈 (OpenAI)GPT-3 (175B), GPT-4, GPT-4o 등텍스트 생성, 고급 추론, 코드 작성, 멀티모달(GPT-4o) 등. 최신 버전일수록 정확도와 멀티모달 처리 능력 향상[2][4][7]비공개(상업 API)클라우드(웹, API), MS Copilot 등플러그인, 인터넷 액세스, 코드 해석, 이미지 처리 등[12]Gemini (Google)Gemini 1.5 등멀티모달(텍스트+이미지) 강점, 구글 생태계 연동, 빠른 응답 속도[5][7]비공개(상업 API)클라우드(Google Workspace 등)구글 서비스와 통합, 이미..

BigData 2025.04.18

AWS 지원 데이터베이스 종류와 특징

데이터베이스: • Amazon Aurora • Amazon DocumentDB(MongoDB 호환) • Amazon DynamoDB • Amazon DynamoDB Accelerator(DAX) • Amazon ElastiCache • Amazon Keyspaces(for Apache Cassandra) • Amazon Neptune • Amazon Quantum Ledger Database(Amazon QLDB) • Amazon RDS • Amazon Redshift • Amazon Timestream AWS 지원 데이터베이스 종류와 특징AWS 지원 데이터베이스 종류: • Amazon Aurora • Amazon DocumentDB(MongoDB 호환) • Amazon DynamoDB • Amazon ..

BigData 2025.04.15

MYSQL에서 제공하는 Vector Data 처리기능

MYSQL에서 제공하는 Vector Data 처리기능MySQL은 벡터 데이터 처리 기능을 내장하여 AI 기반 애플리케이션 개발을 지원합니다. 아래는 주요 기능과 사용 예시, 기존 벡터 DB 대비 장점을 정리한 내용입니다. MySQL의 Vector DB 기능1. 벡터 데이터 타입 지원VECTOR(n): n차원 벡터 저장 가능 (예: VECTOR(768))[2][5].저장 방식: VARBINARY 또는 리스트 형식 문자열로 4바이트 부동소수점 저장[2].크기 제한: 2048~16383 차원 지원 (기본값 2048)[2]. 2. 벡터 변환 함수STRING_TO_VECTOR(): 문자열을 벡터로 변환 (예: '[1][2][3]' → 이진값)[2][5].VECTOR_TO_STRING(): 이진 벡터를 문자열로 ..

BigData 2025.04.02

Mysql - AI 구현을 위한 Vector data 처리하기

#Mysql - AI 구현을 위한 Vector data 처리하기#MySQL은 벡터 데이터 처리 기능을 내장하여 AI 기반 애플리케이션 개발을 지원합니다.아래는 주요 기능과 사용 예시, 기존 벡터 DB 대비 장점을 정리한 내용입니다. MySQL의 Vector DB 기능 1. 벡터 데이터 타입 지원VECTOR(n): n차원 벡터 저장 가능 (예: VECTOR(768))[2][5].저장 방식: VARBINARY 또는 리스트 형식 문자열로 4바이트 부동소수점 저장[2].크기 제한: 2048~16383 차원 지원 (기본값 2048)[2]. 2. 벡터 변환 함수STRING_TO_VECTOR(): 문자열을 벡터로 변환 (예: '[1][2][3]' → 이진값)[2][5].VECTOR_TO_STRING(): 이진 벡터..

BigData 2025.04.02

인공지능GPT - LLM, sLLM, 그리고 SLM의 특징 비교

LLM (Large Language Model) , sLLM (specialized/small LLM) , 그리고 SLM (Small Language Model) 비교LLM, sLLM, 그리고 SLM은 각각 언어 모델의 크기와 목적에 따라 설계된 자연어 처리 기술입니다. LLM (Large Language Model)특징:대규모 텍스트 데이터를 기반으로 학습된 모델로, 수십억~수천억 개의 파라미터를 포함합니다.다양한 분야와 주제를 처리할 수 있는 범용성을 가지고 있습니다.클라우드 기반 서비스로 제공되며, API 호출 방식으로 사용됩니다.대표 사례: GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic), LLaMA 2 (Meta).장점: 방대한 지식과 추론 능력.단점..

BigData 2025.03.29

10가지 유용한Text 데이터 분석 라이브러리

#Gensim #spaCy #NLTK #TextBlob #PyCaret #Word2Vec #Doc2Vec10가지 유용한Text 데이터 분석 라이브러리 데이터 분석을 위한 기술로 텍스트 분석 및 자연어 처리 도구들과 기법들을 설명하고 비교해봅니다.1. Gensim목적: 토픽 모델링, 문서와 단어 임베딩, 그리고 자연어 처리(NLP)를 위한 Python 라이브러리.주요 기능:LDA, Word2Vec, Doc2Vec, FastText와 같은 알고리즘 지원.대규모 텍스트 데이터를 효과적으로 처리.특징:간단한 사용법과 확장성이 뛰어남.텍스트 클러스터링 및 토픽 모델링에 강점.https://linkniti1.com/2. spaCy목적: 고성능의 자연어 처리(NLP)를 제공하는 Python 라이브러리.주요 기능:토큰..

BigData 2025.03.28

Gram이란 N-gram과 skip-gram

N-gram과 skip-gram은 자연어 처리(NLP)에서 텍스트 데이터를 분석하거나 학습할 때 사용하는 대표적인 방법입니다. N-gram정의: N-gram은 텍스트를 연속된 N개의 단위로 분할하여 분석하는 기법입니다. 여기서 N은 1, 2, 3 등 원하는 크기를 나타냅니다.Unigram: 단일 단어로 분할 (N=1)Bigram: 두 단어씩 묶음 (N=2)Trigram: 세 단어씩 묶음 (N=3)작동 방식:주어진 텍스트를 입력받습니다.텍스트를 N개의 연속된 단어, 글자 등의 단위로 나눕니다.각 N-gram의 빈도나 확률 분포를 계산하여 분석에 활용합니다.주요 활용:문장 유사도 비교언어 모델링텍스트 분류 및 감정 분석예시:"I love AI"라는 문장이 있을 때:Unigram: ["I", "love", "..

BigData 2025.03.26

인공지능 기술 - 기술 요소의 진화와 서비스 동향 정리 2025.3.21

인공지능 기술 요소 및 서비스 동향 정리인공지능 기술은 다양한 형태의 데이터를 처리하고 분석하는 데 사용되며, 각 데이터 유형에 특화된 기술 요소들이 존재합니다.인공지능 기술은 GPT가 나오기전과 나오고 난 이후 시장은 급속한 변화가 일어나고 있습니다.기존의 TEXT, DATA를 중심으로 예측하고 분류하고 분석하는 기술에서 비정형 이미지, 동영상을 생성하거나, 사람과의 대화, 지식의 검색증강 등을 통해 사람과의 상호작용이 증가하는 추세로 보여 집니다.앞으로 인공지능은 사람의 지능을 증강하고 역량을 강화하는 도구로서 지식을 수준으로 역량을 측정하는 시대는 사라질 지도 모릅니다. 오히려 사람의 본성과 인간미 넘치는 판단이 더 중요한 사회가 되기를 바랍니다.최근 인공지능 CEO, 인공지능 면접관 등 사람을 평..

BigData 2025.03.23

AgileBus - IT 기술자를 위한 최신 기술 Trends

BigData 92

티스토리툴바