Pues dificultades, fuera de la implementación concreta que quieras darle, no creo que ninguno. Grabar -> Encodear -> Enviar al servidor -> Enviar al 2º cliente -> Desencodear -> Reproducir. El gran problema de VoIP es el escondido de la pérdida de paquetes (especialmente en móvil) y pequeños problemas como la cancelación de ruido y de eco acústico, pero la mayoría de codecs (al menos los que conozco) incorporan medidas. Otra cosa es que quieras hacerte tu propio codec, idea que NO te recomiendo.
Lo que no sé es cómo puede encodear tu dispositivo. Hay codecs realmente ligeros optimizados para la transcripción de audio de voz (véase Speex, ¡que encima es libre!)
¿Costes? El ancho de banda, y aquí se te va a ir MUUUCHO del presupuesto. El Speex más "cutre" son 2kbps. Calcula tú mismo...
No sólo no vas a ganar pasta si no que vas a palmarla (o a mí se me escapa algo.) Ya no es el coste del ancho de banda instantáneo (1000 usuarios a la vez = 2Mbps de subida) si no del tráfico global. Por poner un ejemplo: con que al día haya 24 horas de conversación (la suma de todas las conversaciones) se te van 2436002 = 200Mb al día.
Y todo esto con la calidad más cutre que te puedas echar en cara y con conversaciones de 1 a 1 (el ancho de banda se multiplica con conversaciones grupales.)
PD: he supuesto en todo momento que no vas a liberar el servidor y que cada cual se monte el suyo, si no que tú vas a tener un servidor central.