Aquí podría ser tu PUBLICIDAD


Cómo Web raspar MLB orden de bateo para sobresalir?

votos
0

Estoy raspado alineaciones de béisbol e importar el código Python en Excel utilizando pandas.

Lo que estoy buscando:

  1. Retire las comillas de nombres
  2. Retire los soportes de principio y al final de cada equipo
  3. nombres divididos en diferentes células

Ejemplo de salida de corriente para el equipo 1:

['Daniel Norris', 'Masahiro Tanaka', 'Mikie Mahtook', etc.]

Todos los nombres anteriores tienen entre comillas, comas y soportes unidos a ellos. Todos ellos se encuentran en la misma celda, también.

Ejemplo de salida excel preferido para Equipo 1:

Daniel Norris    Masahiro Tanaka    Miki Mahtook    etc.

Como se puede ver arriba me gustaría que todos los comillas, comas y entre paréntesis removidos. Además, me gustaría que todos los nombres de los jugadores de cada equipo deben estar en sus propias celdas respectivas.

He estado buscando el código correcto en línea. Hasta ahora he visto tres ejemplos en stackoverflow.com pero tienen un aspecto diferente de la mía. Voy a mostrar los tres. Tal vez uno de estos se puede usar en este caso.

Ejemplo 1 utilizando el método de cadena:

s = s.strip(['o','1'])

Ejemplo 2 usando reemplazar método:

s = s.replace(World, )

Ejemplo 3 usando eliminar método:

x = [1,2,3,4,2,2,3]
def remove_values_from_list(the_list, val):
    for i in range(the_list.count(val)):
        the_list.remove(val)

remove_values_from_list(x, 2)

print(x)

¿Es posible implementar uno de estos códigos para hacer los tres elementos que se enumeran más arriba? Si no es así, tal vez alguien me puede ofrecer una idea de cómo lograr una mejor mis metas. He visto algunas personas en línea sugieren un filtro de expresiones regulares. No estoy al tanto de cómo utilizar esos, sin embargo. Gracias de antemano por su tiempo y esfuerzo!

Por cierto, estoy totalmente nuevo a la codificación y el raspado. Estoy muy agradecido por cualquier ayuda que pueda recibir. Por favor, hágamelo saber si usted tiene alguna pregunta o si puedo añadir más detalles para ayudarle mejor.

Aquí está mi código hasta ahora:

from bs4 import BeautifulSoup
import requests
import pandas as pd

url = 'http://www.baseballpress.com/lineups'

soup = BeautifulSoup(requests.get(url).text, 'html.parser')

all_games = []

for g in soup.find_all(class_=game):
    players = g.find_all('a', class_='player-link')
    game = {
        'players': [_.text for _ in g.find_all('a', class_='player-link')],
    }
    all_games.append(game)

print(all_games) 

df = pd.DataFrame.from_dict(all_games)
writer = pd.ExcelWriter('batting lineup.xlsx')
df.to_excel(writer, 'baseball_sheet')
writer.save()
Publicado el 02/09/2018 a las 05:28
fuente por usuario Able Archer
En otros idiomas...        العربية       


Aquí podría ser tu PUBLICIDAD