Aquí podría ser tu PUBLICIDAD


¿Cuál es la mejor manera de refrescar un índice de Nutch?

votos
1

No he mirado a Nutch durante un año más o menos y parece que ha cambiado significativamente. La documentación sobre volver a rastrear no está clara. ¿Cuál es la mejor manera de actualizar un índice existente de Nutch?

Publicado el 12/03/2009 a las 20:59
fuente por usuario Miles
En otros idiomas...        العربية       

2 respuestas

votos
2

Este guión se basa libremente en el de las preguntas frecuentes de Nutch, que al principio no funcionó para mí:

#!/bin/sh
#
# Automate crawling my site
#
crawldir=./crawl
urldir=./urls
NUTCH_HOME=${NUTCH_HOME:=.}

nutch=$NUTCH_HOME/bin/nutch

# Make sure the crawl directories exist
mkdir -p $crawldir/crawldb $crawldir/segments $crawldir/linkdb

# Inject the initial urls
$nutch inject $crawldir/crawldb $urldir

depth=1
while(true) ; do
  echo "beginning crawl at depth $depth"
  echo "-generate"
  $nutch generate $crawldir/crawldb $crawldir/segments
  if [ $? -ne 0 ] ; then
    echo "finishing at depth $depth - no more urls"
    break
  fi

  segment=`/bin/ls -rtd $crawldir/segments/*|tail -1`

  echo "$nutch fetch $segment"
  $nutch fetch $segment
  if [ $? -ne 0 ] ; then
    echo "fetch failed at depth $depth, deleting segment"
    rm -rf $segment
    continue;
  fi

  echo "$nutch updatedb $crawldir/crawldb $segment"
  $nutch updatedb $crawldir/crawldb $segment
  depth=`expr $depth + 1`
done

echo "$nutch mergesegs $crawldir/MERGEDsegs $crawldir/segments/*"
$nutch mergesegs $crawldir/MERGEDsegs $crawldir/segments/*
if [ $? -eq 0 ] ; then
  rm -rf $crawldir/segments/*
  mv $crawldir/MERGEDsegs/* $crawldir/segments
  rmdir $crawldir/MERGEDsegs
else
  echo "Something went wrong"
  exit
fi

echo "$nutch invertlinks $crawldir/linkdb -dir $crawldir/segments"
$nutch invertlinks $crawldir/linkdb -dir $crawldir/segments

echo "$nutch index $crawldir/NEWindexes $crawldir/crawldb $crawldir/linkdb $crawldir/segments/*"
$nutch index $crawldir/NEWindexes $crawldir/crawldb $crawldir/linkdb \
$crawldir/segments/*

echo "$nutch dedup $crawldir/NEWindexes"
$nutch dedup $crawldir/NEWindexes

echo "$nutch merge $crawldir/MERGEDindexes $crawldir/NEWindexes"
$nutch merge $crawldir/MERGEDindexes $crawldir/NEWindexes

mv $crawldir/index $crawldir/OLDindexes
mv $crawldir/MERGEDindexes $crawldir/index
Respondida el 29/07/2009 a las 09:16
fuente por usuario Paul Tomblin


Aquí podría ser tu PUBLICIDAD


votos
0

Estamos utilizando Nutch en combinación con Solr. Nuestro índice Nutch es aprox. 80 MB conatin cerca de 5000 sitios web. Hasta el momento, la mejor manera de volver a rastrear consiste en eliminar el índice y crear desde cero.

Respondida el 11/05/2010 a las 11:18
fuente por usuario svenkubiak