Matthieu,<br><br>Can you do the following test:<br><br>headnode> ipcontroller<br><br># Then copy the engines furl file to the compute node and do in a separate terminal:<br><br>computenode> ipengine --furl-file=[path to the furl file]<br>
<br>If that doesn't work, it is either:<br><br>* IP address related issue.  Play with ifconfig and ipcontroller --engine-ip<br>* Firewall.  But you said this wasn't an issue.<br><br>Hope this helps.<br><br>Cheers,<br>
<br>Brian<br><br><div class="gmail_quote">On Wed, Aug 12, 2009 at 8:06 AM, Matthieu Brucher <span dir="ltr"><<a href="mailto:matthieu.brucher@gmail.com">matthieu.brucher@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="im">> * Firewall.  If a fire wall is blocking the engine from connecting to the<br>
> controller you will see this type of error.  A fire wall like this would be<br>
> unusual though (I have never seen one before).  To test this, start the<br>
> controller on the head node, ssh to a compute node and then just telnet (it<br>
> will fail) to the controller.  But you should see the connection start to<br>
> happen.  You could also run ipengine by hand on the compute node.<br>
<br>
</div>No worries on this side. We do a lot of client/server stuff, it did<br>
work with telnet.<br>
<div class="im"><br>
> * If the controller hasn't been started or failed to start, you would also<br>
> see this.  Look at the controller logs to see if this is going on.<br>
<br>
</div>It seems the controller was launched (and as I can telnet it, I think<br>
it is online?):<br>
<br>
2009-08-12 16:59:52+0200 [-] Log opened.<br>
2009-08-12 16:59:52+0200 [-] Process ['ipcontroller',<br>
<div class="im">'--logfile=/users/brucher/.ipython/log/ipcontroller'] has started with<br>
</div>pid=5001<br>
2009-08-12 16:59:52+0200 [-] Waiting for controller to finish starting...<br>
2009-08-12 16:59:55+0200 [-] Controller started<br>
2009-08-12 16:59:55+0200 [-] Using template for batch script: lsf.template<br>
2009-08-12 16:59:55+0200 [-] Writing instantiated batch script: lsf.template-run<br>
2009-08-12 16:59:55+0200 [-] Job started with job id: '6166'<br>
<div class="im"><br>
> * If there is NAT (network address translation) on the cluster.  This is<br>
> pretty common. Typically this would be that the head node has multiple<br>
> network interfaces, one for the outside world and one for talking to the<br>
> compute nodes.  In this case, you will need to use ifconfig to hunt down the<br>
> right ip address.  Then you will need to use the --engine-ip flag to<br>
> ipcontroller to set the ip address that the engines will connect to.  The<br>
> engines get this from the furl file that the controller writes.<br>
<br>
</div>I don't think there is something like that here. I can connect to the<br>
LSF nodes with ssh and then telnet the controller: it works with the<br>
IP address indicated in the furl.<br>
<div class="im"><br>
> I am betting that the 2nd or 3rd of these is going on.  Keep us posted as<br>
> these things can be pretty tough to debug because of how some clusters are<br>
> setup.  But, take heart, I have never encountered a system that we could get<br>
> working - and this includes some pretty crazy systems.<br>
<br>
</div>I suppose you meant the contrary ;)<br>
I still have hope to get it working in the near future :D<br>
<br>
At least, I have also the LSF logs, but they do not show a thing, as<br>
everything is output in the ipengine logs.<br>
<br>
Cheers,<br>
<div><div></div><div class="h5"><br>
Matthieu<br>
--<br>
Information System Engineer, Ph.D.<br>
Website: <a href="http://matthieu-brucher.developpez.com/" target="_blank">http://matthieu-brucher.developpez.com/</a><br>
Blogs: <a href="http://matt.eifelle.com" target="_blank">http://matt.eifelle.com</a> and <a href="http://blog.developpez.com/?blog=92" target="_blank">http://blog.developpez.com/?blog=92</a><br>
LinkedIn: <a href="http://www.linkedin.com/in/matthieubrucher" target="_blank">http://www.linkedin.com/in/matthieubrucher</a><br>
</div></div></blockquote></div><br>