Lucene(14)
-
Elasticsearch - 5. 고급 검색(검색결과 하이라이트,검색 템플릿,별칭(Alias ,백업&복구 등)
이번 포스팅에서 다루어볼 내용은 이전 포스팅에서 다룬 한글 형태소분석기를 이용한 기타 고급검색 기법에 대해 다루어볼 것이다. 물론 해당 고급검색에는 간략한 내용만 다루어보고 집계쿼리나 기타 유사도검색 기반 검색들은 다른 포스팅에서 다루어볼 것이다. 이번에 다루어볼 내용들이다. 검색 결과 하이라이팅 스크립트를 이용한 동적필드 추가 검색 템플릿을 이용한 동적 쿼리 제공 별칭을 이용하여 항상 최신 인덱스 유지하기 스냅샷을 이용한 백업과 복구 위 내용들을 다루어볼 것이다. 검색의 성능을 향상시키거나 그런 내용은 아니지만 알아두면 아주 유용한 기능들이기에 다루어볼 것이다. 검색결과 하이라이팅 하이라이팅은 문서 검색 결과에 사용자가 입력한 검색어를 강조하는 기능이다. 해당 기능을 통해 사용자가 입력한 검색어가 어디..
2019.05.11 -
Elasticsearch - 4.한글 형태소분석기(Nori Analyzer)
엘라스틱서치 혹은 솔라와 같은 검색엔진들은 모두 한글에는 성능을 발휘하기 쉽지 않은 검색엔진이다. 그 이유는 한글은 다른 언어와 달리 조사나 어미의 접미사가 명사,동사 등과 결합하기 때문에 기본 형태소분석기로는 분석하기 쉽지 않다. 그렇기 때문에 검색엔진을 한글에 적용하기 위해서 별도의 한글 형태소 분석기가 필요하다. 솔라도 물론 가능하고 엘라스틱서치도 역시 한글 형태소 분석기를 내장할 수 있다. 이번 포스팅에서 다루어볼 한글 형태소 분석기는 요즘 뜨고 있는 Nori 형태소분석기를 플러그인 할 것이다. Nori 형태소 분석기는 루씬 프로젝트에서 공식적으로 제공되는 한글 형태소 분석기로써 엘라스틱서치 6.4버전에서 공식적으로 배포됬다. 내부적으로 세종 말뭉치와 mecab-ko-dic 사전을 사용하며, 기존..
2019.05.09 -
Elasticsearch - 3.부가적인 검색 API
엘라스틱서치는 대량의 데이터를 처리하기 위해 기본적으로 데이터를 분산해서 처리한다. 검색요청이 발생하면 엘라스틱서치는 모든 샤드에게 브로드캐스트 방식으로 동시에 요청을 보내고 각각 샤드들이 데이터를 검색한후 결과를 반환하면 엘라스틱서치는 모든 결과를 취합하여 사용자에게 검색 결과를 전달한다. 이러한 동작 방식 때문에 제공되는 부가적인 환경설정값이 있다. 동적 분배 방식의 샤드 선택 엘라스틱서치는 부하 분산과 장애처리를 위하여 원본 샤드 + 복제 리플리카 샤드를 운영한다. 물론 원본 샤드와 복제 리플리카 샤드는 각각 다른 노드에 위치하게 된다. 그렇다면 위에서 엘라스틱서치는 검색요청시 모든 샤드에 브로드캐스트 방식으로 검색요청을 보낸다 했는데, 원본 샤드와 복제 리플리카 샤드 두개 모두에게 검색 요청이 갈..
2019.05.08 -
Elasticsearch - 2.검색 API(Elasticsearch Query DSL)
엘라스틱서치는 인덱스에 저장된 문서를 검색할 수 있도록 다양한 검색기능을 제공한다. 문서는 색인시 설정한 Analyzer에 의해 분석과정을 거쳐 토큰으로 분리되는데, 이러한 Analyzer는 색인 시점 말고도 검색 시점에도 이용된다. 특정 문장이 검색어로 요청되면 분석기를 통해 분석된 토큰의 일치 여부를 판단하여 그 결과에 Score을 매긴다. 이러한 엘라스틱서치에서는 다양한 검색 조건을 주기위하여 Query DSL이라는 특수한 쿼리 문법을 제공한다. 1. 검색 API 문장은 색인 시점에 텀으로 분리된다. 검색 시에는 이 텀을 일치시켜야 검색이 가능하다. 엘라스틱서치는 루씬기반이기 때문에 색인 시점에 Analyzer를 통해 분석된 텀을 Term, 출현빈도, 문서번화와 같이 역색인 구조로 만들어 내부적으로..
2019.05.07 -
IT News - ElasticSearch(엘라스틱), 22일 서울서 기술 세미나 개최
ElasticSearch(엘라스틱), 22일 서울서 기술 세미나 개최 현재 챗봇을 개발하고 있기 때문에 챗봇의 중요한 역할을 하는 자연어처리, 그리고 검색엔진에 관심이 참 많이 간다. 현재는 Solr(솔라)를 사용중인데 요즘 굉장히 핫한 ElasticSearch도 슬슬 공부를 해볼 예정이다. 그런데 22일 엘리스틱서치 기술 세미나 개최가 있다고 해서 기사를 참조해보았다. 바빠서 갈 수 있을지는 모르겠지만, 혹시 저처럼 검색엔진에 관심이 많으신 분이 이 기사를 보시고 한번 참가 해보셨음 좋겠다는 마음에 기사를 올려봅니다. ▶︎▶︎▶︎네이버뉴스 오픈소스 기반의 실시간 로그분석 및 검색 기술업체인 엘라스틱이 오는 22일 서울에서 글로벌 기술 세미나를 개최한다. 엘라스틱서치코리아(대표 한성엽)는 서울 삼성동 인..
2019.02.11 -
Lucene - 유사어,동의어 필터(SynonymFilter)를 이용한 커스텀 Analyzer
Lucene - 유사어,동의어필터(SynonymFilter)를 이용한 커스텀 Analyzer Lucene에는 사용자가 입력한 질의 혹은 색인 할때의 토큰화 과정에서 여러가지 필터를 등록할 수 있다. 토큰의 종류는 아주 많다. StopFiler(불용어처리,불용어처리 단어의 리스트가 필요),SynonymFiler 등 의 필터들이 존재한다. 그 말은 단순히 토큰화된 텀들을 그대로 사용하는 것이 아니라 전처리,후처리를 필터를 이용해서 처리하여 토큰화된 텀에게 여러가지 효과?를 적용할 수 있는 것이다. 여기서는 간단히 유사어필터를 이용한 Custom한 분석기를 만들어 볼 것이며, 유사어 필터의 특징을 간단히 설명할 것이다. 12345678910111213141516171819202122232425262728293..
2019.02.02