로그인회원가입장바구니고객센터마이페이지회사소개
kangcom
전체
서평보기
루씬 인 액션(Lucene in ACTION) - 오픈소스 자바 검색엔진
Erik Hatcher/이문호 | 에이콘 | 번역서 | 2005-09-28
종합평점
도서수준
검색엔진의 개념을 이해하고 실제 살펴볼 수 있는 책 2007-10-11 오전 12:48:01 
평점
도서수준
조회수 (1960)
공감 (0)
김종민 님의 블로그
프로젝트를 수행할 때마다 항상 고민이 되는 것이 바로 검색엔진이었던 것 같습니다.
상업용 검색엔진을 이용하면 비용이 발생하고, 그렇다고 DB 검색으로만 붙여놓기에는 늘어나는 정보의 양이 부담이 되었죠.. 아마 그때 루씬이라는 오픈소스를 알고 있었다면 한번쯤 적용해 보자고 했었을 수도 있었을 것 같네요. ^^

물론 이 책에도 잘 나와 있지만 한글에 대한 분석기가 완벽한 것이 없어서 실제 적용에는 많은 한계가 있을 것입니다. 하지만 많은 개발자들이 관심을 가진다면 이것도 머지 않아 해결되지 않을까 합니다.

책 자체로 보면 번역서라고 믿기지 않을 정도로 매끄럽게 되어 있었습니다.
검색엔진에 대한 "색인", "쿼리(질의어)", "분석"등에 대한 설명이 잘 되어 있어, 저처럼 검색엔진에 대해 어렴풋이 알고있던 초보들에게도 매우 도움이 될 것입니다.

1장에서 6장까지는 루씬의 기본적인 내용을 다루고 있습니다.
기본적으로 검색을 하기 위한 원문의 색인과
검색을 위한 쿼리(질의어) 파싱..
색인과 쿼리 파싱에 적용할 분석기들..
고급기능으로서 검색결과 정렬이나 필터들에 대한 설명이 나와 있습니다.

소스와 함께 설명이 되어 있으니 자바 언어에 대한 기본적인 지식만 있다면 충분히 이해할 수 있을 겁니다.

7장은 재미있는 내용입니다. 루씬은 텍스트 문서만 색인하고 검색할 수 있습니다.
그러나 실제 검색에서는 PDF, HTML, MS-Word등 다양한 문서를 다룰 수 있어야 합니다.
이런 문서들을 색인할 수 있는 방법을 설명하고 있습니다.

꼭 검색엔진이 아니더라도 이런 부분은 다른 데서 유용하게 활용할 수 있을 것입니다.

이어서 루씬의 확장기능이나 다른 언어로 포팅한 것들을 설명하고,
루씬의 적용 사례에 대해 이야기 하고 있습니다.

이 번역서에는 부록으로 루씬 한글 분석기에 대한 예제가 들어있습니다.
물론 한글 형태소분석 방식이 아니어서 약간 부족한 면이 있지만
이걸 확장해서 사용하려는 개발자 분도 있을 것이구..
기존의 한글 형태소분석기를 루씬에 적용하려는 개발자도 있을 겁니다.
(혹, 좋은 거 알고 계시면 추천좀.. ^^)

어쨌든 인터넷에서 성공한 기업들은 모두 검색엔진을 가지고 있습니다.
초기의 야후가 그랬고.. 네이버, 다음, 구글이 그랬죠..
루씬 인 액션으로 이런 검색엔진을 조금 더 이해할 수 있는 계기가 될 것이라고 생각합니다.

댓글은 블로그 http://blog.acronym.co.kr/31에 달아주세요~~

 
코멘트 0   공감 0
코멘트작성
 
이메일주소수집거부