Aquí podría ser tu PUBLICIDAD


Spark Scala Regex -> Creación de múltiples columnas basado en expresiones regulares

votos
0

Digamos que tengo un archivo de texto con datos como tales ..

my sample data set kdf/dfjl/ looks like this

Tengo una expresión regular que puede capturar todo esto en grupos. Los valores que me gustaría puesto en mi columnas serían así.

valores deseados de los grupos

Me gustaría que cada grupo para convertirse en su propia columna en un RDD

val pattern = (\S+) ([\S\s]+)\ (\S+) (\S+) (\S+) (\S+).r

var myrdd = sc.textFile(my/data/set.txt)
myrdd.map(line => pattern.findAllIn(line))

He intentado varios métodos diferentes para conseguir los partidos de la expresión regular a cabo en diferentes columnas, como toArray, toSeq, pero ni siquiera he estado cerca todavía.

Soy consciente de cómo los datos existen en el interior de los partidos ....

val answer = pattern.findAllIn(line).matchData
for(m <- answer){
  for(e <- m.subgroups){
    println(e)
  }
}

Son esos 'de correos que estoy después .. pero no tener mucha suerte para conseguir que los datos separados a cabo en mi RDD.

Gracias

Publicado el 02/09/2018 a las 05:15
fuente por usuario Deanconia
En otros idiomas...        العربية       


Aquí podría ser tu PUBLICIDAD