DeepLearning 32

[Ollama] vs pytorch transformers

🔄 Ollama vs PyTorch/transformersPyTorch 직접 사용✅ 장점: 모델 구조에 직접 접근, 세밀한 제어 가능❌ 단점: 복잡한 설정, GPU 메모리 관리, 모델 로딩 시간 오래 걸림📦 특징: Transformers 라이브러리로 모델을 직접 다운로드하고 메모리에 로딩Ollama 사용✅ 장점: 간단한 설정, 자동 최적화, 빠른 시작, 모델 관리 편리✅ 특징: 서버-클라이언트 구조, 양자화 자동 적용, 메모리 효율적🚀 최적화: C++로 작성된 llama.cpp 엔진 사용 (더 빠름)# ollama 설치curl -fsSL https://ollama.com/install.sh | sh# llama3.2 1B(가장 작은 모델) 설치ollama pull llama3.2:1b 📊 Olla..

DeepLearning 2025.08.11

[SLM] smollm 돌려보기 with copilot

LLM SLM 공부하기 전 일단 돌려보자.. copilot에게 모든 코딩을 부탁해 보았다.전체 코드"""SmolLM 추론 코드 - 실제 모델 버전HuggingFace의 SmolLM-135M 모델을 사용합니다."""import warningswarnings.filterwarnings("ignore")import torchfrom transformers import AutoTokenizer, AutoModelForCausalLMclass SmolLMInference: def __init__(self, model_name="HuggingFaceTB/SmolLM-135M"): """ SmolLM 모델 초기화 Args: model_name: 사용할 S..

DeepLearning 2025.08.11

[aws ec2] vscode 연결: config 설정, 인스턴스 용량 증설

vscode 연결asw 인스턴스 생성 후 연결할 때 나오는 퍼블릭 DNS를 vscode ssh config HostName에 입력한다.그리고 인스턴스 생성 시 저장한 pem 파일 경로를 IndentityFile에 설정해준다.Host aws HostName ec2-######.compute.amazonaws.com User ubuntu Port 22 IdentityFile C:/Users/~~/.ssh/~~.pem 그리고 vscode에서 ctrl+p로 ssh 연결하면 끝 인스턴스 용량 증설아래 따라하니 성공!https://jaeyung1001.tistory.com/entry/AWS-EC2-%EC%9A%A9%EB%9F%89-%EC%A6%9D%EC%84%A4%ED%95%98%EA%B8%B..

DeepLearning 2025.08.11

Class Imbalance

Class imbalance의 negative effectTraining data에서 class imbalance가 존재하면, majority group의 prior probability가 증가하여 over classify된다. 따라서 minority group은 자주 misclassify된다.Minority class의 gradient component가 majority보다 작다. 즉, majority class의 gradient가 전체 gradient를 차지한다. 따라서 모델 가중치의 업데이트에는 majority의 영향이 크다. majority group의 에러는 빠르게 낮추지만 minority group의 에러는 증가시켜서 네트워크의 수렴을 늦출 수 있다.Class imbalance 예시상황: im..

DeepLearning 2022.12.26

Diffusion Model - 개념 알기

GAN을 대체하여 연구되고 있는 Diffusion Model이란 무엇인가. 출처로 표시된 유튜브와 nvidia 블로그의 내용을 정리한 글이다 Generative Model(생성 모델) 먼저 Generative model은 데이터의 representation(표현)을 학습하고 데이터 자체를 모델링하는 ML 학습 방법 중 하나이다. Discriminative model은 데이터가 주어지면 별도의 확률값을 예측한다. 두 모델 간의 상호작용으로 Generative model은 실제 데이터와 다르면서도 실제처럼 보이게 하는 데이터를 합성할 수 있게 된다. 이 모델은 주로 이미지 합성, editing, inpainting, colorization, deblurring, superresolution(SR)과 같은 태..

DeepLearning 2022.10.11

[논문리뷰] CutPaste: Self-Supervised Learning for Anomaly Detection and Localization

CutPaste: Self-Supervised Learning for Anomaly Detection and Localization (CVPR 2021, Google Cloud AI Research) CutPaste: Self-Supervised Learning for Anomaly Detection and Localization We aim at constructing a high performance model for defect detection that detects unknown anomalous patterns of an image without anomalous data. To this end, we propose a two-stage framework for building anomaly ..

DeepLearning 2022.08.04

[논문리뷰] FixMatch: simplifying semi supervised learning with consistency and confidence

FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence (NIPS 2020), Google Research https://arxiv.org/abs/2001.07685 FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence Semi-supervised learning (SSL) provides an effective means of leveraging unlabeled data to improve a model's performance. In this paper, we demonstrate the power of a simple comb..

DeepLearning 2022.07.20

Adagrad->RMSProp, Adam -> AMSGrad

Adam, RMSProp optimization 알고리즘들은 adaptive learning rate를 사용하기 때문에 모든 dimension에서 learning rate를 걱정하지 않아도 된다는 장점이 있었다. 이 adaptive 방식은 Adagrad에서 처음 소개되었다. 하지만 훈련 초기부터 squared gradient의 축적은 효과적인 learning rate를 감소시켜서 최적의 solution에 도달하기 전에 훈련이 종료될 수 있다. 이 문제는 exponential moving average를 기반으로 한 adaptive 방식 (RMSProp, Adam)에서 해결되었다. 이 방식은 훈련 초기부터가 아닌, window에서 squared gradient를 누적한다. 하지만 이 방식 또한 몇 케이스에..

DeepLearning 2022.07.08