728x90
반응형

BigData 61

Llama-2 local 설치 - install gobjc gcc-objc - LLma.cpp 컴파일러 설치

1. Llama-2 local 설치 - install gobjc gcc-objc - 컴파일러 설치 2. Llama-2 local 설치 할 때 생기는 문제들 - llama.cpp해결 **라마 2 (LLama 2)**는 **메타(Meta,페이스북)**에서 개발한 오픈소스 대규모 언어 모델(LLM large language model, GPT)입니다. 이 모델은 최대 70B 규모의 매개변수를 지원하며, GPT-3.5와 동등한 성능을 낸다고 합니다. 라마 2는 누구나 무료로 사용할 수 있으면서, 소스 코드가 공개된 오픈소스라는 것이 큰 장점을 가지고 있습니다. 또한 라마 1 보다 라마 2는 40% 더 많은 데이터를 학습하고, 콘텍스트는 2배가 많아서 추론, 코딩 숙련도, 지식 테스트 등 모든 지표에서 다른 Op..

BigData 2024.02.14

Llama-2 install locally - Llama-2 로컬 사용

Llama-2 install locally - Llama-2 로컬 사용 LLama.cpp를 다운 받아 Llama-2를 테스트 하는 방법을 정리해 봅니다. [ Llama-2 working locally ] llama-2를 실행하는 과정을 다음과 같은 스크립트로 작성을 했습니다. (적합한 시스템 환경에서는 순차적으로 실행이 되겠으나 일부 패키지, 컴파일 환경 등은 하나씩 확인이 필요합니다.) # vi get_llmacpp.sh # -------------------------- #!/bin/bash # ****************************** # 1st Step : llama.cpp download & compile # ****************************** if [ ! -d ..

BigData 2024.02.09

Llama-2 local 설치 할 때 생기는 문제들 - llama.cpp해결

1. Llama-2 local 설치 - install gobjc gcc-objc - 컴파일러 설치 2. Llama-2 local 설치 할 때 생기는 문제들 - llama.cpp해결 **라마 2 (LLama 2)**는 **메타(Meta,페이스북)**에서 개발한 오픈소스 대규모 언어 모델입니다. 이 모델은 최대 70B 규모의 매개변수를 지원하며, GPT-3.5와 동등한 성능을 낸다고 합니다. 라마 2는 누구나 무료로 사용할 수 있으면서, 소스 코드가 공개된 오픈소스라는 것이 큰 장점을 가지고 있습니다. 또한 라마 1 보다 라마 2는 40% 더 많은 데이터를 학습하고, 콘텍스트는 2배가 많아서 추론, 코딩 숙련도, 지식 테스트 등 모든 지표에서 다른 Open LLM들 대비 우수한 성능을 낸다고 합니다. Lla..

BigData 2024.02.08

[GPT기술] Llama2 AI모델을 이용한 검색 기술에 활용하기

Llama2 는 누구나 무료로 다운로드하여 사용할 수 있는 대규모 오픈 소스 언어 모델입니다. 자율주행차부터 챗봇까지, AI혁명으로 사회 전반의 삶의 변화가 일어나고 있습니다. AI의 가장 흥미로운 발전 중 하나는 대규모 언어 모델의 생성입니다. 이러한 모델은 일관되고 이해하기 쉬운 새로운 텍스트를 생성하기 위해 기사 및 소셜 미디어 게시물과 같은 대량의 데이터에 대해 훈련되었습니다. 대규모 언어 모델의 잘 알려진 예로는 OpenAI의 ChatGPT, Google의 Google Bard, Meta의 Llama 2가 있습니다. Meta는 Microsoft와 협력하여 Lama 2 모델을 출시했습니다. Llama2 AI모델에 대한 소개 Llama 2는 페이스북 모회사 메타의 AI 그룹에서 개발한 대규모 언어 ..

BigData 2024.01.14

[생성형AI] RAG(Retrieval Augmented Generation)에 대한 초보자 가이드

[생성형AI] RAG(Retrieval Augmented Generation)에 대한 초보자 가이드 RAG(Retrieval Augmented Generation)란 무일까요? 검색 증강 생성은 사전 학습된 대규모 언어 모델(예: 상호 작용 중인 모델)의 기능을 외부 검색 또는 검색 메커니즘과 결합하는 방법입니다. 이 아이디어는 생성 프로세스 중에 외부의 방대한 문서 모음에서 정보를 가져올 수 있도록 하여 생성 모델의 기능을 향상시키는 것입니다. 검색 증강 RAG 생성AI의 장점 RAG에는 몇 가지 놀라운 장점이 있습니다. 1. 지식 확장성 모든 정보를 저장하고 응답 하는 모놀리식 모델 대신 RAG 모델은 외부 데이터베이스를 업데이트하거나 다양한 지식을 확대하는 것만으로 확장이 가능합니다. 2. 메모리 ..

BigData 2023.12.14

SQL 데이터 통계 분석을 강화하는 analytics - window functions

SQL 데이터 통계 분석을 강화하는 analytics functions SQL에서의 윈도우 함수(Analytic Functions)는 데이터를 분석하고 처리하기 위한 강력한 도구를 제공합니다. Oracle은 Analytics Functions라고 하고, Mysql 에서는 Window Function이라고 명명하고 있습니다. Analytic (Window) function와 SQL Standards SQL 언어의 표준 규격은 데이터베이스 관리 시스템(DBMS) 간의 호환성을 증진하기 위해 정의된 것입니다. SQL:2003 버전 이후부터 윈도우 함수가 표준에 추가되었으며, Window 함수와 같은 분석 함수(Analytic Functions)를 지원하고 있습니다. Window 함수는 데이터를 특정 윈도우 또..

BigData 2023.12.05

(기술)인공지능과 빅데이터 분석을 위한 고성능 분산DBMS SingleStoreDB

(기술)인공지능과 빅데이터 분석을 위한 고성능 분산DBMS SingleStoreDB 빅데이터와 인공지능의 보편화 최근 빅데이터와 인공지능으로 데이터 수집과 관리 기술을 많은 기업에서 사용할 만큼 보편화 되어 있습니다. 그러나 방대하고 다양한 데이터를 처리하기 위해서 도입되는 오픈소스 기반의 데이터 기술들은 데이터 엔지니어, 데이터 사이언티스트등과 같은 고급 기술인력들을 요구하고 있습니다. 이러한 기술 인력은 부족하고 관련 기술의 난이도가 높을 수록 데이터를 관리하고 생산하는 Cost가 실제 데이터를 활용한 서비스를 만드는데 커다란 장벽으로 인식 될 수 있습니다. 앞으로 기술의 발전속도 만큼 더 빠르고 방대한 데이터들이 생겨 날 수록 데이터 기술은 더욱 효율화가 필요하고 더 간단하게 데이터를 활용하는 접근..

BigData 2023.11.19

인공지능 GPT4와 RAG를 이해하는데 알아야 하는 용어들

[인공지능 GPT를 이해하는데 알아야 하는 용어들] GPT(Generative Pre-trained Transformer) LangChain LLM (Large Language Model, 거대 언어 모델) Vector Embedding(벡터 임베딩) Vector Database (벡터 데이터베이스) Tokenize (토큰화) 사용자가 GPT를 이용하는 과정을 심플하게 이해하기 GPT에 대한 내용보다 작동되는 과정을 이해하고 어떻게 하면 만들수 있을까를 고민하면서 업데이트를 하고 있습니다. 조금씩 발전 하는 오늘이 되는데 보탬이 되면 좋겠습니다. GPT3.5의 작동 과정 사용자가 GPT를 이용하는 과정을 심플하게 표현하면 질문을 이해하고 학습된 데이터에서 결과를 읽고 답변하는 것입니다. GPT3.5의 제..

BigData 2023.11.17

데이터 과학과 프롬프트 엔지니어링 - SingleStoreDB 를 이용한 벡터(Vector) DB 활용

[주요 내용] 1. 데이터 과학과 프롬프트 엔지니어링 2. AI민주화를 위한 차세대 DBMS SingleStoreDB 3. 생성형 인공지능(Generative AI)과 벡터 데이터베이스(Vector Database) 4. 기존 벡터데이터베이스의 제약 5. 벡터데이터베이스를 지원하는 SingleStore의 특징 5.1. SingelStoreDB를 이용한 AI 애플리케이션 구축 활용 5.2. AI 개발에 적합한 SingleSotre의 특징 6. SingleStoreDB를 이용한 Vector 연산 예시 1. 데이터 과학과 프롬프트 엔지니어링 chatGPT로 인해 앞으로 인공 지능의 영역은 다음 두 가지 영역으로 나누어 접근할 수 있습니다. - 데이터 과학(학문적/전문성) : 학문적이고 전문성을 요구로 하는 인..

BigData 2023.11.07

(AI프롬프트) LangChain과 LLM (Large Language Model)이 만드는 생성형 AI(Generative AI)

ChatGPT로 인해 인공지능의 영역은 사용자가 모델에게 제공하는 프롬프트 (입력 문장 또는 질문)를 통해 모델의 출력을 조작하고 원하는 결과를 얻는 AI 프롬프트 또는 프롬프트 엔지니어링의 방법에 이르렀습니다. 방대한 자료를 학습하여 탄생한 LLM(Large Language Model)으로 자연어의 이해, 기계 번역, 텍스트 생성, 질문 응답 및 다양한 언어 관련 작업에서 "인간 수준의 언어 이해와 생성 능력을 갖춘 모델"로서 활용 되고 있습니다. LangChain(랭체인)은! LangChain은 언어 모델을 기반으로 하는 GPT기반 AI 애플리케이션을 개발하기 위한 프레임워크입니다. LangChain을 이용해서 chatGPT의 API와 연계하여 LLM을 기반으로한 다양한 언어 모델(Language m..

BigData 2023.11.07

chatGPT 와 채팅의 연결

chatGPT 와 채팅의 연결 chatGPT API를 이용하여 학습된 상품 정보에 대한 질문과 답변을 할 수 있는 간단한 채팅화면을 연결하는 방법을 정리 합니다. 1. chatGPT API연결 import os import openai import sys import utils import panel as pn # application GUI pn.extension() openai.api_key = os.environ['OPENAI_API_KEY'] * pakage panel 패키지는 Python에서 대화형 대시보드 및 웹 애플리케이션을 만들기 위한 도구입니다. 2. 사용할 학습 모델의 정의 한글고 응답을 하므로 영어보다 길게 설정 필요하여 max_tokens=1000으로 조정함 def get_compl..

BigData 2023.10.13

chatGPT 환각(Hallucination) 개선을 위한 응답 품질 점검 - Check outputs

#chatGPT- hallucination #chatGPT_환각방지 #chatGPT_응답품질 #GPT_응답검증 #GPT_응답품질점검 #OpenAI환각 chatGPT 환각(Hallucination) 개선을 위한 응답 품질 점검 - Check outputs 인공지능의 환각 환각은 AI가 잘못된 데이터를 학습하거나 오류로 인해 도출한 결과를 믿을 수 없게 만든다는 것입니다. GPT의 창의적인 답변으로 원하는 결과를 전달하지 못하는 것으로 모델의 환각은 사실이 아닌것을 사실처럼 꾸며내는 것입니다. OpenAI의 응답 품질과 환각을 방지하기 위해서 형성된 모델의 결과를 검증해 보는 것이 중요합니다. 따라서 오픈AI는 주어진 쿼리에 대한 최종 답변에 보상하는 ‘결과 감독(outcome supervision)’ 대신..

BigData 2023.10.09

ChatGPT의 자연스런 대화를 이어가는 - Chaining Prompts for conversational AI

ChatGPT의 자연스런 대화를 이어가는 - Chaining Prompts for conversational AI 대화형AI에서 지속적인 대화을 이어가기 위해 이전 대화의 내용을 근간으로 소통이 필요합니다. Chaining Prompt 를 이용하여 대화를 이어가는 원리를 알아 보고자 합니다. 프롬프트 체인 (Chaining Prompts ) 프롬프트 체인은 보다 동적이고 상황에 맞는 챗봇을 만들기 위해 대화형 AI에 사용되는 기술입니다. 정적인 챗봇을 정의하는 대신 LLM(대형 언어 모델)의 기능을 활용하여 사용자가 말하는 내용을 동적으로 해석하고 그에 따라 응답할 수 있습니다. "Chaining Prompts"으로 사용자는 이전의 대화 문맥을 유지하면서 새로운 질문이나 지시를 추가할 수 있습니다. 이를..

BigData 2023.10.08

ChatGPT의 연쇄적 사고 사슬과 추론답변 - Chain of Thought Reasoning 와 한국어 답변 만들기

Chain of Thought Reasoning에 대한 내용과 영어로 작성된 사고사슬(SoT)로도 한국어로 답변할 수 있도록 예시를 작성해 보았습니다. 사고사슬(CoT, Chain of Thought Reasoning ) "Chain of Thought Reasoning" 은 입력을 받아 중간에 일련의 추론 단계를 통해 복잡한 추론 기능을 가능하게하는 작업입니다. 대규모 언어모델(LLM)은 산술 문제나 상식을 추론하는 능력이 떨어지는 경우 모델이 잘못된 오류에 도달할 수 있습니다. 모델이 최종 답변을 제공하기 전에 관련 추론 단계로 풀이과정을 추가 요청하여 모델이 문제에 대해 더 생각 할 수 있도록 하는 방법입니다. 아래 그림과 같이 일반적인 단답형의 Standard Prompting 은 오류를 dire..

BigData 2023.10.07

ChatGPT의 입력 처리 - Inputs: Chaining Prompts

Chain of Thought Reasoning에 대한 내용과 영어로 작성된 사고사슬(SoT)로도 한국어로 답변할 수 있도록 예시를 작성해 보았습니다. Inputs: Chaining Prompts "Chain of Thought Reasoning" 은 입력을 받아 중간에 일련의 추론 단계를 통해 복잡한 추론 기능을 가능하게하는 작업입니다. 대규모 언어모델(LLM)은 산술 문제나 상식을 추론하는 능력이 떨어지는 경우 모델이 잘못된 오류에 도달할 수 있습니다. 모델이 최종 답변을 제공하기 전에 관련 추론 단계로 풀이과정을 추가 요청하여 모델이 문제에 대해 더 생각 할 수 있도록 하는 방법입니다. 아래 그림과 같이 일반적인 단답형의 Standard Prompting 은 오류를 direct로 떨어 뜨리지만 오른..

BigData 2023.10.06

ChatGPT의 올바른 언어 사용을 위한 질문 검증 - Inputs - Moderation

ChatGPT의 올바른 언어 사용을 위한 질문 검증 - Inputs - Moderation Evaluate Inputs: Moderation의 목적 일반적으로 올바른 질의를 하기 위해 "Evaluate Inputs: Moderation"은 다음과 같은 목적을 가질 수 있습니다: 1. 부적절한 언어 차단: 모델이 생성하는 응답 중에서 부적절한 언어, 욕설, 혐오 표현 등을 방지하고 차단하는 기능을 구현합니다. 2. 불법 콘텐츠 방지: 사용자가 생성한 콘텐츠 중에서 불법이나 불쾌한 내용을 식별하여 차단합니다. 3. 스팸 방지: 스팸 또는 중복된 내용을 방지하고 플랫폼의 품질을 유지합니다. 4. 보안 위협 방어: 모델이 악성 코드나 보안 위협을 생성하지 않도록 보호합니다. ChatCompletion과 Mode..

BigData 2023.10.06

ChatGPT를 이용한 질문 분류 - Input - Classification

ChatGPT를 이용한 질문 분류 - Input - Classification 최근 모든 기술 트랜드가 ChatGPT를 이용한 프로그램이 대세인듯 합니다. 저도 프로그램을 만들어 본지는 오래 되었지만 다시 파이썬 코드와 "https://chat.openai.com/" 를 이용해서 소스코드를 검증하고 샘플을 만들어 보고 있습니다. 먼저 ChatGPT를 이용한 질문의 분류 (Classification) 하는 방법을 소스로 정리해 보았습니다. 소스를 작성 하려면 {YOUR_API_KEY} 부분은 본인의 OpenAI API 키를 입력 해야 합니다. 그런데 chatGPT의 API_KEY를 이용하여 사용 하려면 개인계정을 유료 결제를 해야 합니다. ㅁ ChatGPT API 이용가이드 https://platform...

BigData 2023.10.05

실시간데이터처리 Cloud-Native Singlestore DB 특징과 Linux 설치 가이드

#SingleStoreDB_Self-Managed #SingleStore #Cloud-nativeDB #SingleStore_Install #Install_Docker 실시간데이터처리 Cloud-Native Singlestore DB 특징과 Linux 설치 가이드 SingleStoreDB 는? SingleStoreDB 는 대규모 트랜잭션과 실시간 분석을 모두 처리하는 분산형 관계형 데이터베이스입니다 . 표준 쿼리(SQL)를 통해 데이터를 관리 할 수 있고, Kafka와 같은 Data Pipe-line을 구성 할수 있는 광범위한 드라이버와 애플리케이션 에코시스템을 제공 합니다. SingleStoreDB의 SQL 엔진은 Mysql과 같아서 Mysql 문법을 그대로 이용할 수 있습니다. SQL, Procedu..

BigData 2023.10.04

[SQLite] SQLite 설치하기

[SQLite 사용법] SQLite 설치하기 SQLite 사용법 관련 목차 1. [SQLite]-sqlite 소개 -Serverless-Database 2. [SQLite]-SQLite_관리-Commands 3. [SQLite] sqlite 테이블 생성 - create table 4. [SQLite] Sqlite transaction - ACID개념 5. [SQLite] [SQLite] Sqlite transaction 처리문 작성 - BEGIN TRANSACTION 6.[SQLite] date형식 timestamp를 이용하여 날짜 표현하기 7.[SQLite] SQLite 윈도우-리눅스 설치하기 [SQLite 사용법] SQLite 설치하기 SQLite는 매우 간단한 방법으로 설치할 수 있습니다. 다음은 ..

BigData 2023.03.29

실시간 데이터 처리를 위한 Redpanda와 pinot 활용

실시간 데이터 처리를 위한 Redpanda와 pinot 활용 Redpanda는 Kafka와 같은 실시간 데이터 처리를 위한 데이터 스트리밍 기술 입니다. Pinot의 실시간 데이터 저장 기술을 활용하여 실시간 데이터 수집 저장과 조회가 가능한 OLAP 환경을 만들수가 있습니다. Redpanda 설치와 pinot 연동 1. RedPanda 설치 panda-airlines다음 명령으로 호출되는 Docker 네트워크 docker network create panda-airlines panda_airlines그런 다음 홈 디렉토리에 라는 폴더를 만듭니다 . 이후 단계를 위해 이 디렉터리를 Redpanda 컨테이너의 공유 볼륨으로 사용합니다. _YOUR_HOME_DIRECTORY_다음 명령에서 자신의 홈 디렉터리..

BigData 2022.12.22
728x90
반응형