Como ya sabéis, en Classora hemos desarrollado una tecnología que nos permite procesar, de manera semiautomática, distintas fuentes de datos públicas con suma rapidez y facilidad. Pues bien, en nuestra última incursión en datos estatales hemos estructurado una gran parte de la información disponible en el BORME (Boletín Oficial del Registro Mercantil).
El BORME es el documento público en el que se recopila información relacionada con la actividad mercantil de todas las empresas españolas. Entre sus entradas destacan depósitos de cuentas, revocaciones o nombramientos de administradores, modificaciones estatutarias, alteraciones en el capital social, cambios de domicilio social, fusiones y adquisiciones… etc.
El robot encargado de descargar, interpretar y estructurar la información del BORME constituye un buen ejemplo de las capacidades de nuestra tecnología. Esto se debe a que los boletines oficiales son fuentes que presentan información no estructurada (en muchas ocasiones, texto escrito a mano, con diferencias gramaticales y alguna que otra falta de ortografía), en diferentes formatos (hay secciones disponibles en HTML, otras en PDF) y sin integración previa (la misma empresa puede estar escrita de varias maneras diferentes, por no mencionar las innumerables formas de abreviar los regímenes jurídicos).
El resultado de este proceso es un conjunto de más de 1.500.000 empresas parseadas que se irán incorporando paulatinamente a Classora como unidades de conocimiento. En este caso, además de una serie de rankings e informes predefinidos, Classora permitirá visualizar para cada empresa las entradas publicadas en el BORME en los últimos tres años, así como datos telefónicos y de contacto fruto de otro rastreo automático e independiente sobre la web.
Estas capacidades del motor ETL de Classora ya se habían puesto de manifiesto en otras ocasiones, ya que Classora ofrece un servicio orientado al sector bancario para detectar automáticamente situaciones concursales publicadas en el BOE (Boletín Oficial del Estado).
Con el BORME ya son más de 100 las fuentes que revisan periódicamente los robots de Classora para tratar de mantener actualizada la información de la plataforma. Además, con más de 2 millones de unidades de conocimiento, Classora pasa a manejar un número superior al de artículos de Wikipedia en español. Si bien los conceptos «unidad de conocimiento» y «artículo de Wikipedia» no son directamente comparables, esta cifra representa un buen indicador del volumen de datos actual de Classora. Así que ya sabéis, si en vuestra empresa necesitáis ayuda para automatizar la extracción y la interpretación de datos desde una o varias fuentes, y/o la actualización periódica de las mismas, quizás podamos ayudaros. Contad con nuestra experiencia y nuestra tecnología para afrontar el proyecto de forma ágil y con garantías.
¡Os felicito! Desde el Molino estábamos dándole vueltas a hacer algo parecido y me alegro de que hayáis sido vosotros.
Saludos molineros y de nuevo enhorabuena!
Eduardo
Muchas gracias Eduardo. Ya sabes que si en algo podemos ayudaros no tenéis más que avisarnos. Un fuerte abrazo y mucha suerte también para vosotros!
Iván
Me da que acabaremos haciendo bastantes cosas juntos… 😉
cuando tengamos las cosas más claritas por aquí nos ponemos en contacto. Seguro que nos podéis echar una mano en cosas y podemos colaborar en proyectos conjuntos.
El CDTI nos va a dar bastante vidilla!
Genial, pues quedamos a la espera. Creo que pueden surgir sinergias muy interesantes 🙂 Por cierto, enhorabuena por lo del CDTI.
Gracias, creo que es un triunfo de TODOS y espero que todos lo podamos aprovechar! 😉 A ver si firmamos y nos ponemos a ello.