분류 전체보기 54

LangChain RAG 실습 4(Llama3)

한국어를 어느 정도 잘 생성할 수 있는 Llama3 모델을 로드하기 위해 HuggingFace 모델을 사용하기로 했다. 참고한 사이트는 다음과 같다.https://littlefoxdiary.tistory.com/128 Llama3 한국어 성능 테스트 | Colab에서 Meta-Llama-3 모델 사용해보기🦙GPT-4에 비견할만한 성능을 가진다는 Meta의 오픈소스 LLM Llama3를 사용해보자! Llama 3 모델 Llama 3 모델 특징8B & 70B 파라미터 규모의 모델으로, MMLU, HumanEval 등 벤치마크 태스크에서 경쟁모델보다littlefoxdiary.tistory.comhttps://huggingface.co/learn/cookbook/ko/advanced_ko_rag 한국어 Ad..

NLP/실습 2025.09.04

2178번: 미로탐색

https://www.acmicpc.net/problem/2178 BFS 아니면 DFS를 사용하겠지 했는데, 최단 경로는 BFS를 사용하는 게 좋겠다 해서 BFS를 사용하기로 했다. BFS를 사용하기 위해 각 리스트 요소를 노드라고 생각하기로 했고 collections 라이브러리의 defaultdict을 사용하여 graph를 만들었다. Undirected Graph이기 때문에 연결되어 있다면 모두 넣어줬다.# graph 생성graph = defaultdict(list)for n in range(N) : for m in range(M) : if n - 1 >= 0 : if maze[n-1][m] == '1' : graph[(n, m)].app..

코테풀이/백준 2025.08.26

LangChain RAG 실습 3(Llama3)

저번에 ChatGPT를 사용해서 LangChain RAG를 구현했기 때문에, 이번엔 Llama3 모델을 사용해서 구현해본다.저번 실습에서 크롤링한 뉴스 데이터를 사용할 예정이다.역시, 구글 코랩을 사용한다. Llama3 구글 코랩에 설치!pip install colab-xterm #https://pypi.org/project/colab-xterm/%load_ext colabxterm!pip install colab-xterm -qqq!pip install langchain -qqq!pip install langchain_community -qqqcolab-xterm은 코랩에서 터미널 명령어를 수행 가능하도록 한다.패키지를 설치해준다. # 코랩에서 터미널 윈도우 열기%xterm해당 명령어로 터미널 윈도우를..

NLP/실습 2025.07.02

LogLLM: Log-based Anomaly Detection Using Large Language Models

https://arxiv.org/pdf/2411.08561 요약로그 기반 이상 탐지는 로그 데이터를 통해 시스템 문제를 식별하는 것을 목표로 하는 연구 분야로, 소프트웨어 시스템의 신뢰성을 향상시킴기존의 딥러닝 방식은 자연어로 된 로그 데이터에서 내포된 의미 정보를 포착하지 못함본 논문에서, LLM을 활용한 로그 기반 이상 탐지 프레임워크인 LogLLM을 제안 LogLLM은 로그 메세지로부터 semantic vector를 추출하기 위해 BERT 사용로그 시퀀스를 분류?하기 위해 Transformer Decoder 기반 모델인 Llama를 활용BERT와 Llama의 Vector representation space를 정렬하여 로그의 의미를 일관적으로 이해하도록 Projector를 도입 기존 방식 : 로그 ..

NLP/논문 2025.06.30

LangChain RAG 실습 2(네이버 뉴스 기사 크롤링)

저번에 인용 도큐먼트에 날짜만 나와 url과 날짜를 같이 인용하도록 바꿔보았다. from langchain_openai import OpenAIEmbeddingsfrom langchain_community.document_loaders import JSONLoaderfrom langchain_chroma import Chroma# embedding 설정embeddings = OpenAIEmbeddings(model="text-embedding-3-large")# ChromaDB PathDB_PATH = "./drive/MyDrive/실습/RAG/db"# Json 파일 Pathdata_path = './drive/MyDrive/실습/RAG/data/'json_paths = [data_path + json_..

NLP/실습 2025.06.09

LangChain RAG 실습(네이버 뉴스 기사 크롤링)

네이버 뉴스 기사를 크롤링하고, LangChain을 활용한 RAG 구현 실습구글 Colab 사용1. 데이터 크롤링참고 : https://wingyu-story.tistory.com/4 Python 파이썬 오픈api 로 네이버 뉴스 크롤링 (1)참고 문헌 : IT CookBook, 데이터 과학 기반의 파이썬 빅데이터 분석(이지영), 네이버api 문서 소스코드는 참고 문헌을 통해 가져왔습니다. Python 파이썬으로 api 로 네이버 기사 크롤링 Crawling하는 법wingyu-story.tistory.com1. 크롬 드라이브 연결from google.colab import drivedrive.mount('/content/drive') 2. 라이브러리import osimport sysimport urlli..

NLP/실습 2025.06.04

Efficient Continual Pre-training for Building Domain Specific Large Language Models(일단 해석만)

https://aclanthology.org/2024.findings-acl.606/ACL 2024 Findings AbstractLLM은 open-domain에서 놀라운 능력을 보여주었으며, 특정 도메인을 위한 LLM은 domain-specific 태스크를 다루기 위해 on domain corpus로 학습한다. 본 논문에서는 기존의 open-domain LLM에서 domain-specific LLM이 되기 위한 continual pre-training 전략에 대해 알아본다.경제 도메인에서 domain-adaptive continual pre-training으로 만든 FinPythia-6.9B에 대해 소개한다.FinPythia는 경제 태스크에서 기존 모델보다 일관적으로 향상된 성능을 보여준다. 또한, 간..

NLP/논문 2025.05.26

[PCCP 기출문제] 1번 / 동영상 재생기

https://school.programmers.co.kr/learn/courses/30/lessons/340213 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.krdef solution(video_len, pos, op_start, op_end, commands): v_min, v_sec = [int(i) for i in video_len.split(':')] pos_min, pos_sec = [int(i) for i in pos.split(':')] ope_min, ope_sec = [int(i) for i in op_end.split(':')] for command in comm..

[LV. 1] 유연근무제

https://school.programmers.co.kr/learn/courses/30/lessons/388351 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.krdef solution(schedules, timelogs, startday): # 출근 희망 시각 : schedules : shape : (n) # 출근한 시각 : timelogs : (n, 7) # 이벤트 시작 요일 startday 1 : 월 ~ 7 : 일, 6, 7 : 주말 # 주말은 이벤트 영향 X answer = 0 for person in range(len(schedules)) : sch..