데이터 분석&엔지니어링 캠프

머신러닝 모델의 성능은 대부분 데이터의 품질과 관련이 깊습니다. 좋은 품질의 데이터를 확보하는 것도 중요하지만, 원시 데이터(raw data)를 모델이 이해할 수 있는 형태로 변환하는 과정, 즉 피처 엔지니어링(Feature Engineering)이 더욱 중요할 수 있습니다. 이 글에서는 피처 엔지니어링이 무엇이며, 왜 중요한지, 그리고 기본적인 피처 엔지니어링 기법에 대해 설명합니다. 피처 엔지니어링이란? 피처 엔지니어링은 주어진 원시 데이터를 머신러닝 모델이 효과적으로 작동할 수 있는 피처(Feature) 혹은 변수로 변환하는 과정입니다. 이 과정에는 불필요한 정보의 제거, 유용한 정보의 추출 및 변환, 그리고 모델의 학습 과정에서 더 잘 작동할 수 있도록 데이터를 조정하는 작업이 포함됩니다. 피처 ..
머신러닝에서 모델의 성능을 극대화하기 위해 최적의 하이퍼파라미터를 찾는 것은 매우 중요합니다. 하이퍼파라미터 튜닝에는 여러 방법이 있으며, 그 중 하나가 랜덤 서치(Random Search)입니다. 본 글에서는 랜덤 서치의 개념을 설명하고, Scikit-learn 라이브러리를 사용한 구현 예를 함께 소개하겠습니다. 랜덤 서치란? 랜덤 서치는 하이퍼파라미터의 최적 조합을 찾기 위해 주어진 파라미터 공간에서 무작위로 선택된 조합을 평가하는 방법입니다. 그리드 서치(Grid Search)가 정해진 파라미터의 모든 조합을 체계적으로 탐색하는 것과 달리, 랜덤 서치는 탐색 공간에서 랜덤하게 조합을 선택하여 평가합니다. 이 방법은 특히 하이퍼파라미터의 차원이 높거나, 탐색 공간이 클 때 유용하며, 종종 더 적은 시..
머신러닝에서 모델의 최적의 파라미터를 찾기 위한 효율적인 방법 중 하나는 그리드 서치(Grid Search)입니다. 이 글에서는 그리드 서치가 무엇이며, 어떻게 작동하는지, 그리고 언제 사용해야 하는지에 대해 설명합니다. 그리드 서치란? 그리드 서치는 머신러닝 모델의 하이퍼파라미터를 최적화하기 위한 방법 중 하나입니다. 이 방법은 지정된 하이퍼파라미터의 모든 조합을 시험해보며, 가장 좋은 성능을 내는 파라미터 조합을 찾습니다. 각각의 파라미터 조합에 대해 교차 검증을 수행하여 모델의 성능을 평가하며, 이 과정을 통해 최적의 모델을 선택할 수 있습니다. 작동 원리 그리드 서치는 먼저 사용자가 지정한 하이퍼파라미터의 범위나 리스트를 입력 받습니다. 예를 들어, 결정 트리 분류기에 대한 그리드 서치를 수행한다..
본 글은 django를 활용하여 ToDoList 프로젝트를 설명하기 위해 작성되었습니다. my_to_do_app 폴더 내에 있는 views.py 파일을 아래와 같이 수정합니다. from django.shortcuts import render from django.http import HttpResponse from .models import * # Create your views here. ''' def index(request): return HttpResponse("My_to_do_app first page") ''' def index(request): return render(request, "my_to_do_app/index.html") def createTodo(request): user_inp..
본 글은 django를 활용하여 ToDoList 프로젝트를 설명하기 위해 작성되었습니다. my_to_do_app 폴더 내 새로운 폴더 templates를 생성합니다. templates 폴더 내 새로운 폴더 my_to_do_app를 생성합니다. my_to_do_app 폴더 내 새로운 파일 index.html을 생성합니다. index.html 파일을 열어 아래와 같이 코드를 작성합니다. To-do List with Django {% csrf_token %} 메모! 메모한 내용은 여기에 기록 완료 예제로 배우는 Django - TodoList Project 다음, 같은 폴더 내에 있는 views.py 파일을 아래와 같이 수정합니다. python manage.py runserver를 다시 실행하면 아래와 같이 ..
본 글은 django를 활용하여 ToDoList 프로젝트를 설명하기 위해 작성되었습니다. 우선 본인의 github에 새로운 repo를 생성합니다. repo명은 django-todolist로 생성하였습니다. repo를 생성한 후 본인의 컴퓨터 바탕화면에 clone을 합니다. 다음 virtualenv를 사용하여 가상환경을 생성합니다. 가상환경이 정상적으로 설치가 되었다면, 필요한 라이브러리를 설치합니다. django가 필요하기 때문에 django를 설치합니다. 다음으로 django 프로젝트(ToDoList)를 생성합니다. 프로젝트를 생성 후, ls 명령어로 확인을 하면 정상적으로 폴더가 생성된 것을 확인할 수 있습니다. 다음, 생성된 폴더로 이동합니다. 생성된 폴더 내에 manage.py가 존재하면 정상적으..
ms2063
'데이터 분석&엔지니어링 캠프' 카테고리의 글 목록