La creación de archivos de texto en PairedRDD Spark

votos
0

Tengo una duda con Spark Apache mediante la codificación de Java. Tengo un archivo de ejemplo en formato de texto compuesto por pares separados por Tab carbón. Algo como esto:

** example.txt
1   5
2   7
5   4
**

y yo estaba leyendo algunos libros en Internet y sugieren este código para crear un pairedRDD utilizando la primera fila de la línea como la clave, y la segunda columna como valor. Así que utilizan la Tuple2 (de Scala).

Pero no puedo entender por qué todos los ejemplos que veo, crear la tupla, inicializar el objeto con el valor que el conjunto de la línea. Debido a que la clave es sólo el [0] de la x.split) [0] ( función. y el valor parece ser toda la línea.

¿Es esto correcto? o debería reemplazarlo por x.split () [1] (para el valor)?

El código siguiente es lo que he encontrado en muchas fuentes ejemplo en la web.

PairFunction<String, String, String> keyData =   new PairFunction<String, String, String>() {

    public Tuple2<String, String> call(String x) {

    return new Tuple2(x.split(” “)[0], x);

}
Publicado el 02/09/2018 a las 05:18
fuente por usuario
En otros idiomas...                            


1 respuestas

votos
0

Es sólo un ejemplo. Puede volver x [1] o x. No sé el contexto exacto, pero he visto este tipo de ejemplo aquí en el pasado por lo que yo puedo recordar.

Por lo tanto, su elección, hay bien o mal. Para mí, asumiría las x [1], sino también a las x [0] puede ser visto como la clave para una línea.

La lección aquí es: se puede hacer ambas cosas. A partir de ahí se puede reducir (ByKey) o groupByKey , por ejemplo. Eso es lo que AA PairedRDD puede hacer.

Respondida el 02/09/2018 a las 21:08
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more