NLP 13

LangChain RAG 실습 2(네이버 뉴스 기사 크롤링)

저번에 인용 도큐먼트에 날짜만 나와 url과 날짜를 같이 인용하도록 바꿔보았다. from langchain_openai import OpenAIEmbeddingsfrom langchain_community.document_loaders import JSONLoaderfrom langchain_chroma import Chroma# embedding 설정embeddings = OpenAIEmbeddings(model="text-embedding-3-large")# ChromaDB PathDB_PATH = "./drive/MyDrive/실습/RAG/db"# Json 파일 Pathdata_path = './drive/MyDrive/실습/RAG/data/'json_paths = [data_path + json_..

NLP/실습 2025.06.09

LangChain RAG 실습(네이버 뉴스 기사 크롤링)

네이버 뉴스 기사를 크롤링하고, LangChain을 활용한 RAG 구현 실습구글 Colab 사용1. 데이터 크롤링참고 : https://wingyu-story.tistory.com/4 Python 파이썬 오픈api 로 네이버 뉴스 크롤링 (1)참고 문헌 : IT CookBook, 데이터 과학 기반의 파이썬 빅데이터 분석(이지영), 네이버api 문서 소스코드는 참고 문헌을 통해 가져왔습니다. Python 파이썬으로 api 로 네이버 기사 크롤링 Crawling하는 법wingyu-story.tistory.com1. 크롬 드라이브 연결from google.colab import drivedrive.mount('/content/drive') 2. 라이브러리import osimport sysimport urlli..

NLP/실습 2025.06.04

Efficient Continual Pre-training for Building Domain Specific Large Language Models(일단 해석만)

https://aclanthology.org/2024.findings-acl.606/ACL 2024 Findings AbstractLLM은 open-domain에서 놀라운 능력을 보여주었으며, 특정 도메인을 위한 LLM은 domain-specific 태스크를 다루기 위해 on domain corpus로 학습한다. 본 논문에서는 기존의 open-domain LLM에서 domain-specific LLM이 되기 위한 continual pre-training 전략에 대해 알아본다.경제 도메인에서 domain-adaptive continual pre-training으로 만든 FinPythia-6.9B에 대해 소개한다.FinPythia는 경제 태스크에서 기존 모델보다 일관적으로 향상된 성능을 보여준다. 또한, 간..

NLP/논문 2025.05.26