반응형

분류 전체보기 297

[Data Visualization] Bokeh

Bokeh https://docs.bokeh.org/en/latest/index.html Bokeh documentation Bokeh is a Python library for creating interactive visualizations for modern web browsers. It helps you build beautiful graphics, ranging from simple plots to complex dashboards with streaming data... docs.bokeh.org 시각화를 도와주는 파이썬 라이브러리 특징 반응형 웹기반 다양한 툴박스 다양한 종류의 차트 스트림 데이터 처리 Bokeh 설치 pip install bokeh

[Machine Learning] 차원축소 (Dimensionality Reduction)

차원축소 (Dimensionality Reduction) 가지고 있는 방대한 양의 데이터에서 필요한 특성만 추출하는 방법 너무 많은 정보를 잃지 않으면서 데이터를 간소화 새로운 데이터를 잘 예측해주는 '설명력'있는 모델을 구현하기 위해 데이터의 특성을 잘 설명해주는 중요한 차원들만 골라주는 작업 차원축소를 통해 중요한 특징들만 골라 어떻게 분포하고 있는지 대략적으로 확인 모델이 복잡해질수록 필요한 연산량이 많이지기 때문에 시간이 오래 걸리나, 차원축소를 통해 필요한 특징들만 골라내서 연산도 가볍고 데이터 저장공간 확보도 용이 PCA (주성분 분석, Principal Component Analysis) 차원축소의 가장 대표적인 알고리즘 분산이 최대인 축을 찾고 이 축과 직교이면서 분산이 최대인 두번째 축을..

[Web Crawling] Selenium

Selenium(셀레니움) 웹 브라우저의 자동화를 가능하게 하고 지원하는 다양한 도구와 라이브러리를 포함한 프로젝트 웹 앱을 테스트 할 때 주로 사용하는 프레임워크 webdriver라는 api를 통해서 browser 제어 동적인 환경에서 크롤링 웹 테스트의 자동화 www.selenium.dev/documentation/ko/ Selenium 브라우저 자동화 프로젝트 :: Selenium 문서 Selenium 브라우저 자동화 프로젝트 Selenium은 웹 브라우저의 자동화를 가능하게 하고 지원하는 다양한 도구와 라이브러리를 포함한 프로젝트입니다. 브라우저와의 사용자 간의 상호 작용을 테스 www.selenium.dev Selenium 라이브러리 설치 pip install selenium browser dr..

Python/Web Crawling 2021.05.11

[NLP] spaCy

spaCy https://spacy.io/ spaCy · Industrial-strength Natural Language Processing in Python spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more. spacy.io 파이썬의 자연어 처리를 위한 오픈 소스 기반 라이브러리 텍스트 전처리에서 좋은 성능을 보여주고 있음 spacy install pip install spacy # download en stopwords python -m spacy download en python ..

NLP/NLTK 2021.05.10

[Pandas] apply 함수, applymap 함수, map 함수

apply 함수 커스텀 함수를 사용하기 위해 DataFrame에서 복수 개의 컬럼이 필요하다면, apply함수를 사용 열에 있는 모든 원소에 함수를 적용 Series에 적용할 경우 각 요소의 값이 적용된다. data = pd.DataFrame(np.random.randn(4,3), index=['one','two','three','four'], columns=['seoul','busan','gangju']) def gf(x): return pd.Series([x.mean(), x.std()], index=['mean','std']) data.apply(gf, axis=0) 매개 변수를 전달할 수도 있다. frame = pd.read_csv('titanic.csv') def f1(x, age=40): re..

Python/Pandas 2021.05.10

[Python] 파이썬 통계 분석

파이썬 통계 분석 개요 4차 산업혁명: 초연결, 지능, 융합 -> 사무인터넷, AI, 빅데이터 데이터 과학과(IoT + 빅데이터 + AI): 데이터 내재된 패턴 분석 -> 전략적 의미를 추론하는 방법 데이터의 분류 정형 데이터 일정한 규칙으로 체계적으로 정리된 것으로 그 자체로 해석이 가능하여 바로 활용할 수 있음 관계형 데이터베이스(DBMS) 반정형 데이터 고정된 필드에 저장되어 있지는 않지만 XML, HTML 등의 메타데이터와 스키마를 포함하는 것으로 파일 형태 저장 비정형 데이터 고정된 필드나 스키나가 없는 것 스마트 기기에서 페이스북, 트위터, 유튜브 등으로 생성되는 소셜 데이터 IoT 환경에서 생성되는 위치 정보나 센서 데이터와 같은 사물 데이터 등 데이터 분석 방법 분석 목적에 따른 구분 통계..

[NLP] Mecab 설치(Windows OS)

mecab-ko-msvs 다운로드 mecab을 윈도우에서 실행될 수 있게 컴파일 하는 역할 하기 경로에서 윈도우 버전 및 32비트/64비트 선택해서 다운로드 후 원하는 폴더 경로에 파일 압축풀기 https://github.com/Pusnow/mecab-ko-msvc/releases/tag/release-0.9.2-msvc-3 Release release-0.9.2-msvc-3 · Pusnow/mecab-ko-msvc Fix: -r 옵션을 지정해 주지 않았을 때 레지스트리에서 이상한 값을 가져와 오류가 나는 문제 해결 github.com mecab-ko-dic-msvs 다운로드 mecab-ko 기본 사전 하기 경로에서 [mecab-ko-dic-msvs.zip] 파일 다운로드 후 mecab-ko-msvs 압..

NLP/KoNLPy 2021.04.21

[NLP] Information Extraction

정보추출(Information Extraction, IE) 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를 통해 구조화된 정보를 추출할 수 있음 (엔티티 1, 엔티티 2) 정보추출의 목적 문서 내 단어 간의 대상 관계를 파악하여 의미적 관계를 추출하고 이에 대해 응답을 하는 것에 중점을 둠 비정형 텍스트에서 구조화된 정보를 추출하기 위해 모든 언급을 식별 구조화된 엔티티를 데이터베이스 등에 저장하는 것 정보추출의 한계 추출된 정보의 구조 정보를 파악하기 위해서는 도메인 지식 필요 새로운 규칙을 적용하기 위해서는 수동으로 새로운 규칙을 적용하여 새로운 주석을 달아야 함 수작업으로 인한 시간과 ..

NLP/NLP 시스템 2021.04.13

[Pandas] Pandas-Profiling

Pandas-Profiling 방대한 양의 데이터를 가진 데이터프레임을 .profile_report()라는 단 한 줄의 명령으로 탐색하는 패키지 Github github.com/pandas-profiling/pandas-profiling pandas-profiling/pandas-profiling Create HTML profiling reports from pandas DataFrame objects - pandas-profiling/pandas-profiling github.com Document pandas-profiling.github.io/pandas-profiling/docs/master/rtd/ Introduction — pandas-profiling 2.12.0 documentation D..

Python/Pandas 2021.04.12

[NLP] NER(Named Entity Recognition)

NER(Named Entity Recognition) 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소 사람(Person, PS), 장소(Location, LC), 기관(Organization, OG), 날짜(Date, DT) 등과 같은 명명된 개체를 텍스트로 식별하는 작업 하나의 문서 내에서 주요 인물, 조직 및 장소에 대한 정보를 추출하고자 할 때, 미리 정의된 개체명 정의에 따라 해당 정보 추출 지도학습기반 시스템 HMM(Hidden Markov Models) SVM(Support Vector Machines) CRF(Conditional Random Fields) Decision Tree..

NLP/NLP 시스템 2021.04.12

[NLP] 통계적 언어 모델(Statistical Language Model, SLM)

Language Model 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측한거나 생성하는 모델 통계적 언어 모델(Statistical Language Model, SLM) 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델 모델의 목표는 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는데 있음 조건부 확률(conditional Probabilities) 언어 모델 조건부 확률을 기준으로 글자나 형태소의 결합 확률을 기반으로 모델링 corpus 내에서 각 단어들의 조합이 나오는 횟수를 카운트한 후 이에 기반하여 확률을 계산 스마트폰의 자동 완성 N-gram 언어 모델 문장 내 단..

[NLP] soynlp

soynlp https://github.com/lovit/soynlp lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com 한국어 처리를 위한 파이썬 패키지 중 하나 KoNLPy에서 제공하는 형태소 분석기는 형태소 기반으로 문서를 토큰화할 수 있는 기능을 제공하지만 새롭게 만들어진 미 등록 단어들은 인식이 잘되지 않아 사용자 사전에 단어를 등록하는 절차 필요 사용자 사전과 형태소 분석 없이 cohension 기반으로 토큰화를 할 수 있는 기능 제공 Cohesion 문자열을 글자 단위로 분리하여 부분문자열(substring)을 만들 때 왼쪽부터 문맥을 증가시키면서 각 문맥이 ..

NLP/KoNLPy 2021.04.11

[NLP] Mecab

Mecab(은전한닢) eunjeon.blogspot.com/2013/02/blog-post.html 은전한닢 프로젝트를 소개합니다. 은전한닢 프로젝트: 오픈 소스 한국어 / 한글 형태소 분석기 Lucene/Solr, ElasticSearch 플러그인 eunjeon.blogspot.com bitbucket.org/eunjeon/mecab-ko-dic/src/master/ Docker 내에 Mecab 설치하기 RUN apt-get update && \ apt-get upgrade -y && \ apt-get install -y git && \ apt-get install -y curl && \ apt-get install -y bash && \ apt-get install -y python3-dev RUN ..

NLP/KoNLPy 2021.04.11

[NLP] Gensim

Gensim Python library for topic modelling, document indexing and similarity retrieval with large corpora 자연어 처리를 위한 python 패키지 Topic modeling 에 자주 이용되는 Latent Dirichlet Allocation(LDA) 이나 Random Projection(RP) 와 같은 방법들이 구현되어 있는 Python 라이브러리 Version 업데이트 되면서 Word2Vec 과 Doc2Vec 같은 embedding 방법들도 포함 pypi.org/project/gensim/ gensim Python framework for fast Vector Space Modelling pypi.org Gensim 설치 ..

NLP/NLP 기초 2021.04.11
728x90
반응형