Quiero analizar los datos HTML usando jsoup (biblioteca de Java de código abierto)

votos
-2

Estoy haciendo una aplicación para Android en horario estudiante puede ser almacenado usando su / su portal de horario en línea dada por la universidad.

Por favor, vea la pantalla tal como se muestra tabla de tiempos en este formato:

Por

Estoy frente a un problema ya que no soy capaz de hacer un patrón que podría extraer los datos de la página web, ya que cada columna y filas no tiene etiquetas de identificación. Consulte el siguiente código html. Si alguien pudiera definir un patrón que sería grande. Por favor, recuerda que yo voy a usar Java (androide) para este solamente. Todas las sugerencias son bienvenidas.

<div class=portlet-body>

            <div class=table-responsive>
            <table class=table  table-light>
            <thead>
                <tr>
                    <th>&nbsp;</th>

                        <th style=text-align: center; color: black>MON</th>

                        <th style=text-align: center; color: black>TUE</th>

                        <th style=text-align: center; color: black>WED</th>

                        <th style=text-align: center; color: black>THU</th>

                        <th style=text-align: center; color: black>FRI</th>

                        <th style=text-align: center; color: black>SAT</th>

                        <th style=text-align: center; color: black>SUN</th>

                </tr>
            </thead>
            <tbody>

                    <tr>
                        <td class=label-success style=color: #fff;>08:00 AM - 09:20 AM</td>


                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Enterprise Application Development Lab(4)<br></div>
                                        <div style=color:gray;>SYED ARSLAN SAEED<br></div>
                                        <div style=color:black;> [INST LAB-I, B-BLOCK]</div>

                                    </td>


                                <td>&nbsp;</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Linear Algebra(3)<br></div>
                                        <div style=color:gray;>SHAHANA  RIZVI<br></div>
                                        <div style=color:black;> [F5]</div>

                                    </td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>


                    </tr>


                    <tr>
                        <td class=label-success style=color: #fff;>09:30 AM - 10:50 AM</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Enterprise Application Development Lab(4)<br></div>
                                        <div style=color:gray;>SYED ARSLAN SAEED<br></div>
                                        <div style=color:black;> [INST LAB-I, B-BLOCK]</div>

                                    </td>

                                <td>&nbsp;</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Enterprise Application Development(3)<br></div>
                                        <div style=color:gray;>ASAD  MAHMOOD<br></div>
                                        <div style=color:black;> [F4]</div>

                                    </td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Enterprise Application Development(3)<br></div>
                                        <div style=color:gray;>ASAD  MAHMOOD<br></div>
                                        <div style=color:black;> [B9]</div>

                                    </td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Linear Algebra(3)<br></div>
                                        <div style=color:gray;>SHAHANA  RIZVI<br></div>
                                        <div style=color:black;> [E5]</div>

                                    </td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>


                    </tr>


                    <tr>
                        <td class=label-success style=color: #fff;>11:00 AM - 12:20 PM</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Principles of Accounting-I(3)<br></div>
                                        <div style=color:gray;>NOUSHEEN TARIQ BHUTTA<br></div>
                                        <div style=color:black;> [F6]</div>

                                    </td>

                                <td>&nbsp;</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Principles of Accounting-I(3)<br></div>
                                        <div style=color:gray;>NOUSHEEN TARIQ BHUTTA<br></div>
                                        <div style=color:black;> [B8]</div>

                                    </td>

                                <td>&nbsp;</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Mobile Application Development(1)<br></div>
                                        <div style=color:gray;>ANSAR  JAVED<br></div>
                                        <div style=color:black;> [B2]</div>

                                    </td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>


                    </tr>


                    <tr>
                        <td class=label-success style=color: #fff;>12:30 PM - 01:50 PM</td>

                                <td>&nbsp;</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Mobile Application Development(1)<br></div>
                                        <div style=color:gray;>ANSAR  JAVED<br></div>
                                        <div style=color:black;> [E5]</div>

                                    </td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>


                    </tr>


                    <tr>
                        <td class=label-success style=color: #fff;>02:00 PM - 03:20 PM</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Artificial Intelligence(2)<br></div>
                                        <div style=color:gray;>AAMER  NADEEM<br></div>
                                        <div style=color:black;> [E4]</div>

                                    </td>

                                <td>&nbsp;</td>


                                <td>&nbsp;</td>


                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>


                    </tr>


                    <tr>
                        <td class=label-success style=color: #fff;>03:30 PM - 04:50 PM</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                    <td style=background-color:#ddd;color:black;text-align: center;border-style: solid;>
                                        <div style=color:black;>Artificial Intelligence(2)<br></div>
                                        <div style=color:gray;>AAMER  NADEEM<br></div>
                                        <div style=color:black;> [B5]</div>

                                    </td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>

                                <td>&nbsp;</td>


                    </tr>


            </tbody>
        </table>
        </div>



</div>
Publicado el 27/11/2018 a las 16:49
fuente por usuario
En otros idiomas...                            


1 respuestas

votos
0

utilizando jsoup

Document doc = Jsoup.connect(url).get();
Elements tableElements = doc.select("table");
Elements rows = tableElements.select("tr"); 
// start from 1, exclude 0 which is a header without td's
for (int i = 1; i < rows.size(); i++) {
   Elements cols = rows.get(i).select("td");
   // print all cols
   for(int j = 0; j < cols.size(); j++){
       System.out.println(cols.get(j).text());
   }
}
Respondida el 05/12/2018 a las 21:33
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more