http://dccode.org/ con su API y su enlace a github para que le hagas un fork... Y su historia detrás, que resulta que proviene de un scraping masivo de documentos en word -- Pedro-Juan Ferrer Matoses Valencia (España)