For folks using quats to represent rotations (which is all I use them for, anyway), if you're batch transforming a bunch of vectors by one quaternion, it's a lot more efficient to convert the quat to a 3x3 matrix first and transform using matrix multiply (9 mults per transform that way vs 21 or so depending on the implementation of q*v*q^-1).  Given that, I can't see many situations when I'd need a super speedy C version of quaternion multiply.
<br><br>--Bill<br><br>