de.digitalcollections.solrocr.solr.SolrOcrHighlighter Maven / Gradle / Ivy

Go to download

Show more of this group Show more artifacts with this name
Show all versions of solr-ocrhighlighting Show documentation

Solr plugin to add support for highlighting directly from various OCR formats (hOCR/ALTO/MiniOCR) without having to store the OCR documents in the index.

There is a newer version: 0.7.0

Show newest version

package de.digitalcollections.solrocr.solr;

import de.digitalcollections.solrocr.formats.OcrBlock;
import de.digitalcollections.solrocr.formats.OcrFormat;
import de.digitalcollections.solrocr.formats.OcrPassageFormatter;
import de.digitalcollections.solrocr.lucene.OcrHighlighter;
import de.digitalcollections.solrocr.lucene.fieldloader.ExternalFieldLoader;
import de.digitalcollections.solrocr.util.OcrHighlightResult;
import java.io.IOException;
import java.nio.charset.StandardCharsets;
import java.text.BreakIterator;
import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.uhighlight.UnifiedHighlighter.HighlightFlag;
import org.apache.solr.common.params.HighlightParams;
import org.apache.solr.common.params.SolrParams;
import org.apache.solr.common.util.NamedList;
import org.apache.solr.common.util.SimpleOrderedMap;
import org.apache.solr.highlight.UnifiedSolrHighlighter;
import org.apache.solr.request.SolrQueryRequest;
import org.apache.solr.search.DocList;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class SolrOcrHighlighter extends UnifiedSolrHighlighter {

  private static final Logger LOGGER = LoggerFactory.getLogger(SolrOcrHighlighter.class);

  public static final String NO_WEIGHT_MATCHES_SUPPORT_MSG =
      "OCR highlighting in external UTF-8 files does not support hl.weightMatches, classic highlighting approach will "
    + "be used instead. Switch to escaped ASCII or UTF-16 to avoid this.";

  private ExternalFieldLoader fieldLoader;
  private OcrFormat ocrFormat;
  private Set ocrFieldNames;


  public SolrOcrHighlighter(ExternalFieldLoader fieldLoader, OcrFormat ocrFormat,
                            List ocrFieldNames) {
    this.fieldLoader = fieldLoader;
    this.ocrFormat = ocrFormat;
    this.ocrFieldNames = new HashSet<>(ocrFieldNames);
  }

  @Override
  public NamedList