From flxpaz en gmail.com Tue Jan 10 16:08:17 2017 From: flxpaz en gmail.com (Rolando Paz) Date: Tue, 10 Jan 2017 15:08:17 -0600 Subject: [Python-es] OverflowError: Allocated too many blocks Message-ID: Hola a todos y buen año 2017! Estoy usando el siguiente código sencillo para abrir el archivo binario: ds1000_20150626_133335_B0835-41.bin. #!/usr/bin/python import numpy, pylab aa=numpy.fromfile('ds1000_20150626_133335_B0835-41.bin', dtype=numpy.uint8, count=-1) pylab.plot(aa) pylab.ylabel('Power (arbitrary units)') pylab.grid() pylab.xlabel('time') pylab.show() Pero surge el siguiente error: OverflowError: Allocated too many blocks Pueden sugerirme alguna solución? Saludos y gracias. Rolando P. ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From almeis en hotmail.com Tue Jan 10 16:31:06 2017 From: almeis en hotmail.com (Aaron Meis Sanchez) Date: Tue, 10 Jan 2017 21:31:06 +0000 Subject: [Python-es] OverflowError: Allocated too many blocks In-Reply-To: References: Message-ID: Hola estas superando la memoria, el archivo es demasiado grande para procesarlo puedes intentar si estas en linux usar un split y partirlo a la mitad para procesar tu archivo, sino buscar otra opción para partir tu archivo depende de lo que requieras hacer, en alguna ocasión procesando archivos muy grandes termine usando awk (por que split también truena a determinado tamaño) para hacer pequeños pedazos mas pequeños y delimitados de el archivo principal para poder procesarlo con python suerte saludos!!! ________________________________ De: Python-es en nombre de Rolando Paz Enviado: martes, 10 de enero de 2017 03:08 p. m. Para: La lista de python en castellano Asunto: [Python-es] OverflowError: Allocated too many blocks Hola a todos y buen año 2017! Estoy usando el siguiente código sencillo para abrir el archivo binario: ds1000_20150626_133335_B0835-41.bin. #!/usr/bin/python import numpy, pylab aa=numpy.fromfile('ds1000_20150626_133335_B0835-41.bin', dtype=numpy.uint8, count=-1) pylab.plot(aa) pylab.ylabel('Power (arbitrary units)') pylab.grid() pylab.xlabel('time') pylab.show() Pero surge el siguiente error: OverflowError: Allocated too many blocks Pueden sugerirme alguna solución? Saludos y gracias. Rolando P. ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From dquijote22 en gmail.com Wed Jan 11 02:38:58 2017 From: dquijote22 en gmail.com (Toni .) Date: Wed, 11 Jan 2017 07:38:58 +0000 Subject: [Python-es] OverflowError: Allocated too many blocks In-Reply-To: References: Message-ID: Sin ser un experto, intentando aportar mi granito de arena, mirando la documentación de numpy para fromfile podrías usar count para especificar el número de items que quieres cargar y seek del file to calcular el offset en cada iteración. O bien puedes usar memmap que parece que lo hace por ti: https://docs.scipy.org/doc/numpy/reference/generated/numpy.memmap.html Saludos El mar., 10 ene. 2017 a las 22:48, Aaron Meis Sanchez () escribió: > Hola estas superando la memoria, el archivo es demasiado grande para > procesarlo puedes intentar si estas en linux usar un split y partirlo a > la mitad para procesar tu archivo, sino buscar otra opción para partir tu > archivo depende de lo que requieras hacer, en alguna ocasión > procesando archivos muy grandes termine usando awk (por que split > también truena a determinado tamaño) para hacer pequeños pedazos mas > pequeños y delimitados de el archivo principal para poder procesarlo con > python suerte saludos!!! > > ------------------------------ > *De:* Python-es en > nombre de Rolando Paz > *Enviado:* martes, 10 de enero de 2017 03:08 p. m. > *Para:* La lista de python en castellano > *Asunto:* [Python-es] OverflowError: Allocated too many blocks > > Hola a todos y buen año 2017! > > Estoy usando el siguiente código sencillo para abrir el archivo binario: > ds1000_20150626_133335_B0835-41.bin. > > #!/usr/bin/python > > import numpy, pylab > > aa=numpy.fromfile('ds1000_20150626_133335_B0835-41.bin', > dtype=numpy.uint8, count=-1) > pylab.plot(aa) > pylab.ylabel('Power (arbitrary units)') > pylab.grid() > pylab.xlabel('time') > pylab.show() > > > Pero surge el siguiente error: OverflowError: Allocated too many blocks > > Pueden sugerirme alguna solución? > > Saludos y gracias. > > Rolando P. > > > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From flxpaz en gmail.com Wed Jan 11 06:12:35 2017 From: flxpaz en gmail.com (Rolando Paz) Date: Wed, 11 Jan 2017 05:12:35 -0600 Subject: [Python-es] OverflowError: Allocated too many blocks In-Reply-To: References: Message-ID: Muchas gracias Aaron y Toni. Voy a dedicarme a resolverlo de acuerdo a sus sugerencias. Saludos... El ene. 11, 2017 1:39 AM, "Toni ." escribió: > Sin ser un experto, intentando aportar mi granito de arena, > > mirando la documentación de numpy para fromfile podrías usar count para > especificar el número de items que quieres cargar y seek del file to > calcular el offset en cada iteración. > O bien puedes usar memmap que parece que lo hace por ti: > https://docs.scipy.org/doc/numpy/reference/generated/numpy.memmap.html > > Saludos > > El mar., 10 ene. 2017 a las 22:48, Aaron Meis Sanchez () > escribió: > >> Hola estas superando la memoria, el archivo es demasiado grande para >> procesarlo puedes intentar si estas en linux usar un split y partirlo a >> la mitad para procesar tu archivo, sino buscar otra opción para partir tu >> archivo depende de lo que requieras hacer, en alguna ocasión >> procesando archivos muy grandes termine usando awk (por que split >> también truena a determinado tamaño) para hacer pequeños pedazos mas >> pequeños y delimitados de el archivo principal para poder procesarlo con >> python suerte saludos!!! >> >> ------------------------------ >> *De:* Python-es en >> nombre de Rolando Paz >> *Enviado:* martes, 10 de enero de 2017 03:08 p. m. >> *Para:* La lista de python en castellano >> *Asunto:* [Python-es] OverflowError: Allocated too many blocks >> >> Hola a todos y buen año 2017! >> >> Estoy usando el siguiente código sencillo para abrir el archivo binario: >> ds1000_20150626_133335_B0835-41.bin. >> >> #!/usr/bin/python >> >> import numpy, pylab >> >> aa=numpy.fromfile('ds1000_20150626_133335_B0835-41.bin', >> dtype=numpy.uint8, count=-1) >> pylab.plot(aa) >> pylab.ylabel('Power (arbitrary units)') >> pylab.grid() >> pylab.xlabel('time') >> pylab.show() >> >> >> Pero surge el siguiente error: OverflowError: Allocated too many blocks >> >> Pueden sugerirme alguna solución? >> >> Saludos y gracias. >> >> Rolando P. >> >> >> _______________________________________________ >> Python-es mailing list >> Python-es en python.org >> https://mail.python.org/mailman/listinfo/python-es >> > > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > > ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From jpfernandez en udem.edu.co Tue Jan 17 10:25:19 2017 From: jpfernandez en udem.edu.co (=?utf-8?B?SnVhbiBQYWJsbyBGZXJuw6FuZGV6IEd1dGnDqXJyZXo=?=) Date: Tue, 17 Jan 2017 15:25:19 +0000 Subject: [Python-es] Python 3.5.2 In-Reply-To: References: <18cbe4ad-b84d-7451-86b7-54e583b364b7@gmail.com> Message-ID: Hola, Jhonny Alonso, Matemáticamente las expresiones -22 y -(22) son iguales porque la potenciación tiene prevalencia sobre la multiplicación y el parentesis no está alterando esa prevalencia, de pronto lo que deseabas escribir era (-2)2 en el cual debe hacerse la potencia del número -2. Saludos, Juan Pablo. De: Python-es [mailto:python-es-bounces+jpfernandez=udem.edu.co en python.org] En nombre de Johnny Alonso Enviado el: sábado, 24 de diciembre de 2016 11:52 a.m. Para: 'La lista de python en castellano' Asunto: Re: [Python-es] Python 3.5.2 Hola Ricardo y Armando, si las expresiones que muestran son código Python, lamento decirles que están bastante lejos de la realidad. Están comparando expresiones con operadores diferentes y que el resultado en ocasiones les coincida es mera casualidad. En Python el operador ** es potenciación y ^ equivale a la operación XOR entre bist. >>> -2**2 -4 >>> -(2^2) 0 Armando ni siquiera coinciden los resultados, dándote el beneficio de la duda, y utilizas el ^ como operador de potenciación, entonces: La expresión -(2^2) en Python equivale a: >>> -(2**2) -4 Aquí los resultados con el operador ** coinciden, -4 en ambos casos, y lo acepto como correcto desde el punto de vista del lenguaje, pero no desde el punto de vista matemático, pues matemáticamente las expresión -2² es diferente a -(2²). Los desarrolladores de lenguajes son libres de incorporar lo que desean, esto también aplica para la precedencia de operadores y el sentido de evaluación de las expresiones matemáticas, pero de igual forma lo documentan para que los usuarios no incurramos en errores asumiendo que todos cumplen las reglas de evaluación matemática al pie de la letra. Conjetura: Python no implementa el operador menos unario, pero si el binario el cual tiene menor precedencia que el de potenciación, así: -x**n es interpretado en Python como 0-x**n. >>> -2**2 -4 >>> 0 - 2**2 -4 Saludos, Johnny Alonso De: Python-es [mailto:python-es-bounces+johnny.alonso.quintero=gmail.com en python.org] En nombre de Armando Ortega Enviado el: sábado, 24 de diciembre de 2016 6:24 a. m. Para: La lista de python en castellano Asunto: Re: [Python-es] Python 3.5.2 Buenos días. Ricardo tiene razón. -2**2 = -(2^2) = -4 (-2)**2 = -2^2 = 4 Un saludo. El 24/12/16 a las 04:54, Johnny Alonso escribió: Hola Ricardo, Por definición ?La potencia es resultado de tomar un número como factor 2 o más veces?. Aritmética de Baldor, capítulo XV, Elevación a potencias y sus operaciones inversas, página 152. -2**2 = -2 * -2 Leyes de la potenciación: Todo número elevado a la cero es igual a 1, x**0 = 1 -2**0 = 1 Todo número elevado a un exponente par (múltiplo de 2) es positivo, en caso contrario se mantiene el signo del número. -2**2 = 4 -2**3 = -8 Lo anterior lo puedes verificar en la calculadora de un celular IPhone o Samsung, incluso en la de Windows. Es evidente que en Python es así, y lo acepto porque así está documentado, pero es algo para tener en cuenta cuando programas en él. Ricardo, con respecto a las matemáticas en este caso, estas equivocado. Saludos, Johnny Alonso De: Python-es [mailto:python-es-bounces+johnny.alonso.quintero=gmail.com en python.org] En nombre de Ricardo Cárdenes Enviado el: viernes, 23 de diciembre de 2016 5:04 p. m. Para: La lista de python en castellano Asunto: Re: [Python-es] Python 3.5.2 No, no es una excepción. En matemáticas, la exponenciación tiene prioridad: -x^2 = -(x^2) Los lenguajes de programación que implementan este operador, suelen adherirse a la regla (Python, PHP, D, Ruby, ...). Luego tienes disidentes como JavaScript, pero bueno... Así que no, Python no es "una excepción a las reglas algebraicas". Saludos, Ricardo 2016-12-23 5:31 GMT-10:00 Johnny Alonso >: Gracias Kiko, me queda claro, es excepción a las reglas algebraicas en Python. De: Python-es [mailto:python-es-bounces+johnny.alonso.quintero=gmail.com en python.org] En nombre de Kiko Enviado el: viernes, 23 de diciembre de 2016 10:08 a. m. Para: La lista de python en castellano Asunto: Re: [Python-es] Python 3.5.2 El 23 de diciembre de 2016, 16:05, Kiko > escribió: El 23 de diciembre de 2016, 15:06, Johnny Alonso > escribió: Hola todos, estoy iniciándome en Python y creo que se presenta un fallo de precedencia con el operador menos unario: >>> -2**2 # probable error -4 >>> -2 * -2 # Ok 4 >>> pow(-2, 2) # Ok 4 >>> Por favor, si alguien sabe si esto está documentado podría indicarme en donde lo encuentro, de lo contrario, podrían reportarlo a la fundación, yo no lo se hacer. Se evalúa antes el operador potencia: https://docs.python.org/3/reference/expressions.html#unary-arithmetic-and-bitwise-operations Antes he ido muy rápido: https://docs.python.org/3/reference/expressions.html#the-power-operator Saludos, JohnnyAlonso _______________________________________________ Python-es mailing list Python-es en python.org https://mail.python.org/mailman/listinfo/python-es _______________________________________________ Python-es mailing list Python-es en python.org https://mail.python.org/mailman/listinfo/python-es _______________________________________________ Python-es mailing list Python-es en python.org https://mail.python.org/mailman/listinfo/python-es [Universidad de Medellín] La información contenida en este correo electrónico, está diseñada para uso exclusivo de la persona o entidad a la que va dirigida, y puede contener datos que sean confidenciales. Si el lector de este mensaje no es el destinatario previsto, empleado o agente responsable, se le notifica que cualquier divulgación, distribución o copia de esta comunicación está estrictamente prohibida. Si usted ha recibido este mensaje por error, por favor notifíquelo al correo del cual fue enviado. ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From gvm2121 en gmail.com Thu Jan 26 23:33:19 2017 From: gvm2121 en gmail.com (Gonzalo V) Date: Fri, 27 Jan 2017 01:33:19 -0300 Subject: [Python-es] scrapear un javascript Message-ID: Hola amigos. Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay unos tab o lenguetas que se llenan a través de javascript. ¿cómo podría obtener esa información? este es el link, el href
  • Votaciones
  • y no lo puedo abrir con urllib.request.urlopen alguien sabe cómo?, han tenido algún problema similar? Saludos, Gonzalo ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From ignacio en sugarlabs.org Fri Jan 27 01:44:25 2017 From: ignacio en sugarlabs.org (=?UTF-8?Q?Ignacio_Rodr=C3=ADguez?=) Date: Fri, 27 Jan 2017 03:44:25 -0300 Subject: [Python-es] scrapear un javascript In-Reply-To: References: Message-ID: Puede ser media boba mi respuesta (porque seguramente ya buscaste); pero aca sugieren hacer un sleep despues de obtener la info: http://stackoverflow.com/questions/31310321/python-urllib2-wait-for-page-to-load-to-scrape-data No se si funciona con urllib (usan urllib2 en el ejemplo) On 1/27/17, Gonzalo V wrote: > Hola amigos. > Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay > unos tab o lenguetas que se llenan a través de javascript. ¿cómo podría > obtener esa información? > este es el link, el href >
  • Votaciones
  • > > y no lo puedo abrir con urllib.request.urlopen > > alguien sabe cómo?, han tenido algún problema similar? > > > > Saludos, > Gonzalo > -- Ignacio Rodríguez From ignacio en sugarlabs.org Fri Jan 27 01:44:39 2017 From: ignacio en sugarlabs.org (=?UTF-8?Q?Ignacio_Rodr=C3=ADguez?=) Date: Fri, 27 Jan 2017 03:44:39 -0300 Subject: [Python-es] scrapear un javascript In-Reply-To: References: Message-ID: *antes de hacer el read == obtener la info. On 1/27/17, Ignacio Rodríguez wrote: > Puede ser media boba mi respuesta (porque seguramente ya buscaste); > pero aca sugieren hacer un sleep despues de obtener la info: > > http://stackoverflow.com/questions/31310321/python-urllib2-wait-for-page-to-load-to-scrape-data > > No se si funciona con urllib (usan urllib2 en el ejemplo) > > On 1/27/17, Gonzalo V wrote: >> Hola amigos. >> Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay >> unos tab o lenguetas que se llenan a través de javascript. ¿cómo podría >> obtener esa información? >> este es el link, el href >>
  • Votaciones
  • >> >> y no lo puedo abrir con urllib.request.urlopen >> >> alguien sabe cómo?, han tenido algún problema similar? >> >> >> >> Saludos, >> Gonzalo >> > > > -- > Ignacio Rodríguez > -- Ignacio Rodríguez From lasizoillo en gmail.com Fri Jan 27 06:26:00 2017 From: lasizoillo en gmail.com (lasizoillo) Date: Fri, 27 Jan 2017 12:26:00 +0100 Subject: [Python-es] scrapear un javascript In-Reply-To: References: Message-ID: Buenas, Para hacer scraping en sitios que abusan de javascript, siempre que no tengas unos criterios de eficiencia excesivos (en plan quiero un millón de requests hechas para mañana) y no te importe que el scraper use demasiada memoria, yo tiraría por echarle un vistazo a webdriver. Haces las pruebas manejando un chrome o un firefox y si todo va bien pasas a controlar un navegador headless como phantomjs. Te obliga a aprender tecnologías, pero a la larga te ahorra tiempo. Otra opción es investigar que hace ese javascript para simular su comportamiento con tu scraper. Googleando un poco tiene pinta que es una cosa tipo de .net y que hay ejemplos de como lidiar con ello: http://toddhayton.com/2015/05/04/scraping-aspnet-pages-with-ajax-pagination/ http://stackoverflow.com/questions/23885771/scraping-with-dopostback-with-link-url-hidden Con la información que das tampoco se ser más concreto. Espero que te sea de utilidad. Un saludo, Javi El día 27 de enero de 2017, 5:33, Gonzalo V escribió: > Hola amigos. > Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay unos > tab o lenguetas que se llenan a través de javascript. ¿cómo podría obtener > esa información? > este es el link, el href >
  • id="ctl00_mainPlaceHolder_btnVotaciones" > href="javascript:__doPostBack('ctl00$mainPlaceHolder$btnVotaciones','')">Votaciones
  • > > y no lo puedo abrir con urllib.request.urlopen > > alguien sabe cómo?, han tenido algún problema similar? > > > > Saludos, > Gonzalo > > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > From gvm2121 en gmail.com Sun Jan 29 10:34:36 2017 From: gvm2121 en gmail.com (Gonzalo V) Date: Sun, 29 Jan 2017 12:34:36 -0300 Subject: [Python-es] scrapear un javascript In-Reply-To: References: Message-ID: gracias javi, muy útil tu respuesta. ¿que más se debería saber cómo para tener un camino más certero? El 27 ene. 2017 8:26 AM, "lasizoillo" escribió: > Buenas, > > Para hacer scraping en sitios que abusan de javascript, siempre que no > tengas unos criterios de eficiencia excesivos (en plan quiero un > millón de requests hechas para mañana) y no te importe que el scraper > use demasiada memoria, yo tiraría por echarle un vistazo a webdriver. > Haces las pruebas manejando un chrome o un firefox y si todo va bien > pasas a controlar un navegador headless como phantomjs. > > Te obliga a aprender tecnologías, pero a la larga te ahorra tiempo. > > Otra opción es investigar que hace ese javascript para simular su > comportamiento con tu scraper. Googleando un poco tiene pinta que es > una cosa tipo de .net y que hay ejemplos de como lidiar con ello: > > http://toddhayton.com/2015/05/04/scraping-aspnet-pages-with- > ajax-pagination/ > http://stackoverflow.com/questions/23885771/scraping- > with-dopostback-with-link-url-hidden > > Con la información que das tampoco se ser más concreto. Espero que te > sea de utilidad. > > Un saludo, > > Javi > > > El día 27 de enero de 2017, 5:33, Gonzalo V escribió: > > Hola amigos. > > Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay > unos > > tab o lenguetas que se llenan a través de javascript. ¿cómo podría > obtener > > esa información? > > este es el link, el href > >
  • > id="ctl00_mainPlaceHolder_btnVotaciones" > > href="javascript:__doPostBack('ctl00$mainPlaceHolder$ > btnVotaciones','')">Votaciones
  • > > > > y no lo puedo abrir con urllib.request.urlopen > > > > alguien sabe cómo?, han tenido algún problema similar? > > > > > > > > Saludos, > > Gonzalo > > > > _______________________________________________ > > Python-es mailing list > > Python-es en python.org > > https://mail.python.org/mailman/listinfo/python-es > > > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From larepisa en gmail.com Sun Jan 29 12:35:58 2017 From: larepisa en gmail.com (LA REPISA) Date: Sun, 29 Jan 2017 18:35:58 +0100 Subject: [Python-es] Pandas Message-ID: <6C6B3A68-281A-4C53-BB18-BF33B9C69126@gmail.com> Buenas tardes, ¿Consideráis a Pandas una librería orientada al análisis de datos o más bien, una librería orientada al manejo y preparación de los datos (Data munging)? Un saludo desde Madrid Enviado desde mi iPhone From kikocorreoso en gmail.com Mon Jan 30 03:34:49 2017 From: kikocorreoso en gmail.com (Kiko) Date: Mon, 30 Jan 2017 09:34:49 +0100 Subject: [Python-es] Pandas In-Reply-To: <6C6B3A68-281A-4C53-BB18-BF33B9C69126@gmail.com> References: <6C6B3A68-281A-4C53-BB18-BF33B9C69126@gmail.com> Message-ID: El 29 de enero de 2017, 18:35, LA REPISA escribió: > Buenas tardes, > > ¿Consideráis a Pandas una librería orientada al análisis de datos o más > bien, una librería orientada al manejo y preparación de los datos (Data > munging)? > Depende. Mi respuesta es tan vaga como la pregunta :-) Define análisis de datos y define manejo y preparación de datos. Para lo segundo, sin duda es una herramienta increible. Para lo primero, si análisis de datos es sacar un promedio de los valores de una columna después de filtrar por determinadas condiciones entonces también vale. Si es aplicar un GBRT, un análisis cluster o hacer procesamiento de señal pues hay librerías más especializadas. Saludos. > > Un saludo desde Madrid > > > Enviado desde mi iPhone > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From pych3m4 en gmail.com Mon Jan 30 09:01:22 2017 From: pych3m4 en gmail.com (Chema Cortes) Date: Mon, 30 Jan 2017 14:01:22 +0000 Subject: [Python-es] scrapear un javascript In-Reply-To: References: Message-ID: Ahora mismo, alrededor de javascript se ha montado un ecosistema tan arcano que es dificil darte ideas generales que puedan aplicarse en cualquier caso. Lo único que se puede hacer es esperar a que el navegador acabe por mostrar todo el contenido y, aún así, nunca estarás seguro de que lo que muestre no haya sido adaptado a tu situación geográfica, perfiles sociales o, simplemente, que te hayan vetado tu IP por parecer un bot. La idea del scraping es obtener información de una web que no es ofrecida de otra manera. Lo ideal es que hubiera una API para obtener esta información. (En Europa se empieza a ofrecer esta información desde las administraciones públicas mediante opendata/opengov) Si no has tenido suerte y, además, sigues empeñado en extraer la información mediante python, mi consejo es usar webdriver (como te decía lasizoillo), pero hazlo mediante Selenium. Aunque es más un framework para diseñar pruebas de páginas webs, también hay quien lo usa para hacer scraping. En los siguientes artículos puedes ver el proceso desde las pruebas iniciales hasta definir un sistema de producción que funciona mediante phantomjs (como también te decía lasizoillo): http://thiagomarzagao.com/2013/11/12/webscraping-with-selenium-part-1/ http://thiagomarzagao.com/2013/11/14/webscraping-with-selenium-part-2/ http://thiagomarzagao.com/2013/11/15/webscraping-with-selenium-part-3/ http://thiagomarzagao.com/2013/11/16/webscraping-with-selenium-part-4/ http://thiagomarzagao.com/2013/11/17/webscraping-with-selenium-part-5/ El dom., 29 ene. 2017 a las 16:35, Gonzalo V () escribió: > gracias javi, muy útil tu respuesta. ¿que más se debería saber cómo para > tener un camino más certero? > > El 27 ene. 2017 8:26 AM, "lasizoillo" escribió: > > Buenas, > > Para hacer scraping en sitios que abusan de javascript, siempre que no > tengas unos criterios de eficiencia excesivos (en plan quiero un > millón de requests hechas para mañana) y no te importe que el scraper > use demasiada memoria, yo tiraría por echarle un vistazo a webdriver. > Haces las pruebas manejando un chrome o un firefox y si todo va bien > pasas a controlar un navegador headless como phantomjs. > > Te obliga a aprender tecnologías, pero a la larga te ahorra tiempo. > > Otra opción es investigar que hace ese javascript para simular su > comportamiento con tu scraper. Googleando un poco tiene pinta que es > una cosa tipo de .net y que hay ejemplos de como lidiar con ello: > > > http://toddhayton.com/2015/05/04/scraping-aspnet-pages-with-ajax-pagination/ > > http://stackoverflow.com/questions/23885771/scraping-with-dopostback-with-link-url-hidden > > Con la información que das tampoco se ser más concreto. Espero que te > sea de utilidad. > > Un saludo, > > Javi > > > El día 27 de enero de 2017, 5:33, Gonzalo V escribió: > > Hola amigos. > > Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay > unos > > tab o lenguetas que se llenan a través de javascript. ¿cómo podría > obtener > > esa información? > > este es el link, el href > >
  • > id="ctl00_mainPlaceHolder_btnVotaciones" > > > href="javascript:__doPostBack('ctl00$mainPlaceHolder$btnVotaciones','')">Votaciones
  • > > > > y no lo puedo abrir con urllib.request.urlopen > > > > alguien sabe cómo?, han tenido algún problema similar? > > > > > > > > Saludos, > > Gonzalo > > > > _______________________________________________ > > Python-es mailing list > > Python-es en python.org > > https://mail.python.org/mailman/listinfo/python-es > > > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > -- Hyperreals *R "Quarks, bits y otras criaturas infinitesimales": http://blog.ch3m4.org ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: From diego.uribe.gamez en gmail.com Mon Jan 30 10:43:49 2017 From: diego.uribe.gamez en gmail.com (DiegoUG) Date: Mon, 30 Jan 2017 15:43:49 +0000 Subject: [Python-es] Pandas In-Reply-To: References: <6C6B3A68-281A-4C53-BB18-BF33B9C69126@gmail.com> Message-ID: Nose si sea tu caso, pero en mi caso la uso para operaciones matemáticas complejas. El 30 de enero de 2017, 8:34, Kiko escribió: > > > El 29 de enero de 2017, 18:35, LA REPISA escribió: > >> Buenas tardes, >> >> ¿Consideráis a Pandas una librería orientada al análisis de datos o más >> bien, una librería orientada al manejo y preparación de los datos (Data >> munging)? >> > > Depende. Mi respuesta es tan vaga como la pregunta :-) > > Define análisis de datos y define manejo y preparación de datos. > > Para lo segundo, sin duda es una herramienta increible. > Para lo primero, si análisis de datos es sacar un promedio de los valores > de una columna después de filtrar por determinadas condiciones entonces > también vale. Si es aplicar un GBRT, un análisis cluster o hacer > procesamiento de señal pues hay librerías más especializadas. > > Saludos. > > >> >> Un saludo desde Madrid >> >> >> Enviado desde mi iPhone >> _______________________________________________ >> Python-es mailing list >> Python-es en python.org >> https://mail.python.org/mailman/listinfo/python-es >> > > > _______________________________________________ > Python-es mailing list > Python-es en python.org > https://mail.python.org/mailman/listinfo/python-es > > -- *Diego Alonso Uribe Gamez* ------------------------------ *Desarrollador web* Twitter: @DiegoUG Google+: +DiegoAlonsoUribeGamez ------------------------------ ------------ próxima parte ------------ Se ha borrado un adjunto en formato HTML... URL: