반응형

분류 전체보기 297

[Jenkins] System Configuration

Jenkins 시스템 설정 젠킨스 관리 의존 플러그인 버전 현재 사용중인 플러그인의 의존성 확인 후 버전 만족되지 않는 경우 알람 시스템 설정 메인 화면 표시 문구, 실행기(executors) 개수, 젠킨스 접속 경로, 관리자 정보, 시스템 전체에 적용할 환경변수, 플러그인 파일의 경로와 설정 정보 등을 설정 Global Tool Configuration 빌드 과정에서 사용하는 도구(Maven, JDK, Git, Docker 등)의 경로 및 옵션 설정 플러그인 관리 젠킨스에서 사용할 플러그인 설치, 삭제, 업데이트 노드 관리 젠킨스에서 사용할 노드 추가, 삭제 노드의 세부 설정 및 상태 모니터링, 노드 관리 Manage Credentials 젠킨스에서 사용하는 플러그인에 필요한 접근 키, 비밀 키, AP..

[Elasticsearch] Elasticsearch Stack

Elasticsearch Stack ELK Stack(Elasticsearch, Logstash, Kibana) + Beats Elasticsearch 텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 무료 검색 및 분석 엔진 [Elasticsearch] - Elasticsearch Elasticsearch Elasticsearch 오픈소스 검색엔진 아파치 재단의 루씬(Lucene)을 기반으로 개발된 오픈소스 검색엔진 Full Text Search(전문검색) 전문 검색이란 내용을 전체를 색인해서 특정 단어가 포함된 문서를 검색 yumdata.tistory.com Kibana Elasticsearch를 위한 시각화 및 관리 도구로서, 실시간 히스토그램, 선 그래프, 파..

Elasticsearch 2022.01.15

[Elasticsearch] Elasticsearch API

Elasticsearch API Elasticsearch는 RESTFul 방식의 API를 제공하며, JSON 기반으로 통신한다. Elasticsearch에서 사용하는 HTTP Method 기능 데이터베이스 질의 문법 GET 데이터 조회 SELECT PUT 데이터 생성 INSERT POST 인덱스 업데이트, 데이터 조회 UPDATE, SELECT DELETE 데이터 삭제 DELETE HEAD 인덱스의 정보 확인 - 인덱스 관리 API(Indices API) index 색인 데이터 indexing 색인하는 과정 indices 매핑 정보를 저장하는 논리적인 데이터 공간 Schemaless 문서를 색인하기 위해서는 인덱스를 생성하는 과정이 필요한데 인덱스 생성 과정없이 문서를 추가하더라도 문서가 색인되도록 지원..

Elasticsearch 2022.01.15

[Elasticsearch] Elasticsearch Cluster, Node

Elasticsearch Cluster 물리적인 노드 인스턴스들의 모임 모든 노트의 검색과 색인 작업을 관장하는 논리적인 개념 분산 처리를 위해서는 다양한 형태이 노드들을 조합해서 클러스터를 구성해야 한다. Elasticsearch Node Elasticsearch를 구성하는 하나의 단위 프로세스 Master Node 클러스터를 관리, 노드 추가와 제거 같은 클러스터의 전반적인 관리를 담당 인덱스를 생성, 삭제하는 등 클러스터와 관련된 전반적인 작업을 담 네트워크 속도가 빠르고 지연이 없는 노드를 마스터 노드로 선정해야 한다. 노드를 마스터 노드 전용으로 설정하고자 하는 경우 conf 폴더의 elasticsearch.yml 파일의 설정을 다음과 같이 한다. node.master: true node.dat..

Elasticsearch 2022.01.15

[Elasticsearch] Elasticsearch 데이터 구조

Elasticsearch 데이터 구조 Elasicsearch와 RDBMS 비교 ElasticSearch RDBMS index Database Shard Partition Type Table Document Row Field Column Mapping Schema Query DSL SQL Index 데이터 저장 공간 하나의 인덱스는 하나의 타입만 가지며 하나의 물리적인 노드에 여러 개의 물리적인 인덱스를 생성할 수 있다. 검색 시 인덱스 이름으로 문서 데이터를 검색하며, 여러 개의 인덱스를 동시에 검색하는 것도 가능하다. 인덱스 생성시 기본적으로 5개의 primary shard와 1개의 replica shard 세트를 생성한다. 인덱스의 이름은 모두 소문자여야 하며 추가, 수정, 삭제, 검색은 RESTFu..

Elasticsearch 2022.01.15

[Elasticsearch] Elasticsearch snapshot 데이터 연동

Elasticsearch snapshot 데이터 연동 Elasticsearch를 실행한 후 path.repo에서 설정한 물리적인 스냅숏 데이터를 elasticsearch로 인식시켜야 한다. curl -H "Content-Type: application/json" -XPUT "http://localhost:9200/_snapshot/snapshottest" -d "{ \"type\":\"fs\", \"settings\":{ \"location\":\"path\\repo\\test", \"compress\": true} }" curl 명령어 실행 후 Content-Type header 오류 발생 시 다음 옵션 추가 -H "Content-Type: application/json" "error":"Content..

Elasticsearch 2022.01.15

[Kibana] Kibana 설치

Kibana Elasticsearch에서 제공하는 데이터 시각화 프로그램 Elasticsearch에서 색인된 데이터를 검색하거나 문서를 추가하거나 삭제하는 등의 기능을 손쉽게 구현할 수 있다. Kibana 설치 Kibana 다운로드 경로에서 설치하고자 하는 OS에 맞는 파일을 다운로드 받는다. https://www.elastic.co/kr/downloads/kibana Download Kibana Free | Get Started Now Download Kibana or the complete Elastic Stack (formerly ELK stack) for free and start visualizing, analyzing, and exploring your data with Elastic in m..

Elasticsearch 2022.01.15

[Elasticsearch] Elasticsearch 설치

Elasticsearch 설치 엘라스틱서치를 운영할 때는 최소 3개 이상의 물리적인 노드로 클러스터를 구축하는 것이 좋다. 테스트용 등으로 사용하기 위해 노드 하나만으로 구성된 클러스터를 싱글 모드 또는 테스트 모드라고 부른다. 자바 설치 Elasticsearch는 자바로 개발됐기 때문에 자바 런타임이 필요하다. 오라클 정책 변경으로 Java SE(JRE/JDK) 유상버전 변경에 따라 무료 버전이 필요한 경우에는 Open JDK를 설치하면 된다. [Elastic] - Open JDK 설치 Open JDK 설치 Open JDK 설치 오라클 정책 변경으로 Java SE(JRE/JDK) 유상버전 변경에 따라 무료 버전이 필요한 경우에는 Open JDK를 설치하면 된다. [OpenJDK 공식 홈페이지] Open..

Elasticsearch 2022.01.14

[OpenJDK] OpenJDK 설치

OpenJDK 설치 오라클 정책 변경으로 Java SE(JRE/JDK) 유상버전 변경에 따라 무료 버전이 필요한 경우에는 Open JDK를 설치하면 된다. [OpenJDK 공식 홈페이지] OpenJDK Learn about the key active Projects in the Community including Amber (high-productivity language features), Loom (lightweight concurrency), Panama (foreign functions and foreign data), Valhalla (primitive types and specialized generics), and, of course, th openjdk.java.net [OpenJDK 다운..

Elasticsearch 2022.01.14

[Elasticsearch] Elasticsearch 기본 개념

Elasticsearch https://www.elastic.co/kr/what-is/elasticsearch Elasticsearch는 무엇인가요? 로그, 시스템 메트릭, 웹 애플리케이션 등 다양한 소스로부터 원시 데이터가 Elasticsearch로 흘러들어갑니다. 데이터 수집은 원시 데이터가 Elasticsearch에서 색인되기 전에 구문 분석, 정규화, 강화 www.elastic.co 오픈소스 검색엔진 아파치 재단의 루씬(Lucene)을 기반으로 개발된 오픈소스 검색엔진 텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 무료 검색 및 분석 엔진 분산형 및 개방형을 특징으로 한다. Elasticsearch 사용 사례 애플리케이션 검색 웹사이트 검색 엔터프라이즈 검..

Elasticsearch 2022.01.13

[Elasticsearch] 검색 시스템

검색 시스템 검색엔진(Search Engine) 웹에서 정보를 수집해 검색 결과를 제공하는 프로그램 검색 시스템(Search System) 대용량 데이터를 기반으로 신뢰성 있는 검색 결과를 제공하기 위해 검색엔진을 기반으로 구축된 시스템을 통칭 수집기 크롤러(crawler), 스파이더(spider), 웜(worms), 웹 로봇(web robot) 등으로도 불림 웹사이트, 블로그, 카페 등 웹에서 필요한 정보를 수집하는 프로그램 파일, 데이터베이스, 웹페이지 등 웹상의 대부분의 정보가 수집 대상이 됨 스토리지 데이터베이스에서 데이터를 저장하는 물리적인 저장소 검색엔진은 색인한 데이터를 스토리지에 보관 색인기 다양한 형태소 분석기를 조합해 정보에서 의미가 있는 용어를 추출하고 검색에 유리한 역색인 구조로 데..

Elasticsearch 2022.01.13

[Python] Textract 문서 데이터 처리

Textract 워드, 파워포인트, PDF 파일 등의 텍스트 추출 https://github.com/deanmalmgren/textract GitHub - deanmalmgren/textract: extract text from any document. no muss. no fuss. extract text from any document. no muss. no fuss. Contribute to deanmalmgren/textract development by creating an account on GitHub. github.com Textract 설치 pip install textract Textract를 이용한 문서 데이터 추출 import textract text = textract.proces..

[Python] [tika-python] PDF, Powerpoint 정보 추출

tika-python [tika-pyhon @github] GitHub - chrismattmann/tika-python: Tika-Python is a Python binding to the Apache Tika™ REST services allowing Tika to be call Tika-Python is a Python binding to the Apache Tika™ REST services allowing Tika to be called natively in the Python community. - GitHub - chrismattmann/tika-python: Tika-Python is a Python binding ... github.com Apach Tika REST 서비스에 대한 Py..

[Python] [tabula-py] PDF 파일 정보 추출

tabula-py https://github.com/chezou/tabula-py GitHub - chezou/tabula-py: Simple wrapper of tabula-java: extract table from PDF into pandas DataFrame Simple wrapper of tabula-java: extract table from PDF into pandas DataFrame - GitHub - chezou/tabula-py: Simple wrapper of tabula-java: extract table from PDF into pandas DataFrame github.com tabula-py를 이용할 경우 PDF 파일 내의 테이블 정보를 pandas의 Dataframe으로 추..

[Python] [PyMuPDF] PDF 파일 정보 추출

PyMuPDF 설치 pip install PyMuPDF PyMuPDF를 이용한 파일 정보 추출 import fitz pdf_doc = fitz.open("sample.pdf") # number of pages print(f"전체 Page 수: {pdf_doc.page_count}") # Get the first page page = pdf_doc.load_page(0) # page 내의 텍스트 추출 print(page.get_text()) 결과 전체 Page 수:1 텍스트 상자: 슬라이드 내의 텍스트 데이터 추출 확인 테이블 컬럼1 테이블 컬럼2 테이블 컬러3 데이터1_1 데이터2_1 데이터3_1 데이터1_2 데이터2_2 데이터3_2 데이터1_3 데이터2_3 데이터3_3 ※ 한글 텍스트가 정상 추출됨을 ..

728x90
반응형