Disciplinas en las que trabajamos.
Un mapa de las técnicas, modelos y tecnologías que dominamos. Algunas viven en nuestros productos. Otras las investigamos y las aplicamos en servicios a medida.
Por qué desarrollamos en casa
Una empresa de análisis de datos depende de su capacidad de transformar información en activo. Si esa transformación la hace un proveedor externo, no eres una empresa de análisis de datos: eres un revendedor con marca propia.
Desarrollar en casa nos da tres cosas que ningún proveedor puede dar: control sobre el roadmap, velocidad para adaptar la tecnología a casos reales de cliente y coherencia entre las distintas líneas de actividad.
Procesamiento industrial bajo marco TDM
El acceso a fuentes públicas a escala industrial no es trivial: requiere infraestructura propia para autenticación, anti-bot lícito y cumplimiento legal automatizado. Todo lo que viene después depende de hacer esto bien.
Clusters distribuidos de análisis
Arquitectura distribuida sobre las grandes redes sociales (Facebook, X/Twitter, Instagram, TikTok, Telegram, Reddit) con balanceo, rotación de usuarios por país y resiliencia a rate limits.
APIs directas integradas
Conexión directa con APIs oficiales (Meta Graph, X/Twitter API, Reddit API) y proveedores especializados (RapidAPI, Apify) cuando es la vía adecuada para el caso.
Anti-bot lícito sobre medios con paywall
Integración con ScrapFly + Playwright y FlareSolverr para gestionar Cloudflare, DataDome, PerimeterX y Akamai sobre cabeceras de pago — manteniendo el marco legal TDM y respetando opt-outs.
Cookies y sesiones centralizadas (PupCookies)
Sistema propio de refresco automático de cookies con Puppeteer. Centraliza autenticación de 20+ medios con paywall — secuencias de login multi-paso, validación de sesión y actualización en tiempo real.
Cumplimiento LPI automatizado
Verificador automático de opt-outs sobre robots.txt, headers HTTP y meta tags. Análisis sistemático de la base completa de medios (~130K) con scoring de restricciones y trazabilidad.
Bypass de geolocalización lícito
Routing por país de origen y proxy residencial cuando es necesario para acceder a fuentes regionales — siempre dentro de la excepción TDM y la naturaleza pública del acceso.
De información bruta a inteligencia estructurada
Una vez tenemos la materia prima, la convertimos en datos estructurados que se pueden consultar, filtrar, agregar y comparar. Esto es lo que hace la diferencia entre un lago de texto y un activo de negocio.
Procesamiento de Lenguaje Natural (NLP)
Limpieza, normalización y comprensión semántica de texto multi-idioma a escala industrial.
Cómo la aplicamos
- Detección de idioma, tokenización, lematización y deduplicación semántica de contenido.
- Reconocimiento de Entidades (NER) multi-idioma: personas, organizaciones, marcas, productos y lugares.
- Categorización sectorial con modelos propios: hasta 20+ categorías temáticas ajustables por cliente.
- Sentimiento canónico normalizado (escala −100 / +100) comparable entre fuentes, idiomas y productos.
- Análisis de tono independiente del sentimiento (formal, informal, agresivo, conciliador, irónico).
- Protagonismo de marca (0–100): discrimina entre mención casual y análisis profundo en el mismo texto.
- Geolocalización de usuarios en redes sociales: corrige errores de la IA con un sistema propio cubriendo 10+ países.
Modelos de Lenguaje (LLMs)
Uso productivo de LLMs propietarios y open-source para resúmenes, clasificación y reformulación a gran escala.
Cómo la aplicamos
- Integración con Gemini, OpenAI GPT y Llama3 según el caso de uso y la sensibilidad del cliente.
- Prompts diseñados en colaboración con el cliente para garantizar criterios sectoriales y reproducibilidad.
- Control de coste por registro: tracking de tokens de entrada/salida y reconciliación financiera.
- Salidas estructuradas (JSON) parseables y persistentes en base de datos para consultas posteriores.
Embeddings y búsqueda semántica
Representación vectorial de texto y búsqueda por significado, no por coincidencia exacta.
Cómo la aplicamos
- Evaluación científica de modelos de embeddings (MiniLM, E5-small, MPNet, BGE, Jina) sobre tareas reales.
- Modelo en producción: multilingual-e5-small por equilibrio calidad/rendimiento medido (top1-sim 0,89).
- Fusión de rankings (Reciprocal Rank Fusion) combinando búsqueda fuzzy y semántica.
- Indexación incremental sobre bases de conocimiento corporativas y por cliente.
Convertir el análisis en acción
La inteligencia no sirve si no llega al usuario adecuado en el momento adecuado. Esta capa convierte el catálogo semántico en alertas, informes y acciones automatizadas.
Modelos predictivos y de alerta temprana
Detección de tendencias y eventos antes de que se vuelvan virales o críticos.
Cómo la aplicamos
- Detección automática de temas emergentes en ventanas de tiempo configurables.
- Scoring de probabilidad e impacto sobre eventos detectados.
- Modelos de protagonismo de marca y voz en el contenido analizado.
- Alertas en tiempo real entregadas por Telegram, email u otros canales.
Agentes autónomos
Agentes que razonan sobre contexto, deciden qué importa y generan el mensaje. No son reglas: son razonamiento.
Cómo la aplicamos
- Identificación automática de los temas más relevantes en cada período sobre el catálogo semántico.
- Generación de borradores de contenido editorial e informes narrativos a partir del análisis.
- Agentes especializados por dominio: encuestas, elecciones, RRPP, observatorios sectoriales.
- Chatbots conversacionales y knowledge bots sobre bases de conocimiento propias o de cliente.
- Orquestador en lenguaje natural: alta automática de servicios a partir de briefings en texto libre — de horas a minutos.
La capa que lo sostiene todo
Una arquitectura híbrida operacional/analítica funcionando 24/7, dimensionada para los volúmenes reales del universo público de Internet.
Pipelines Big Data y Elasticsearch
Infraestructura batch 24/7 que sostiene todo el resto. MySQL operacional + BigQuery analítico + Elasticsearch para búsqueda en tiempo real.
Cómo la aplicamos
- Pipelines de procesamiento, análisis y enriquecimiento sobre cientos de fuentes y APIs integradas.
- Cuatro clusters Elasticsearch separados por dominio temático (Prensa, DG, PRO, Social) con índices temporales mensuales.
- Volúmenes en producción: del orden de 3–7M de menciones en prensa digital y de 300K–4M de señales en redes sociales procesadas al mes.
- Sincronización cross-schema entre MySQL operacional y BigQuery analítico para histórico y modelos.
- Resiliencia industrial: retries, throttling y entrega regular sin pérdidas en ventana habitual.
Del dato al impacto económico
Lo que mide nuestra infraestructura no se queda en cifras técnicas: se traduce en valor publicitario, en tier de medios y en métricas de impacto comparables.
Enriquecimiento automático de medios (MediaAudit)
Pipeline ETL propio que mantiene actualizado un catálogo cross-source de medios digitales globales.
Cómo la aplicamos
- Más de 10.000 medios catalogados con metadatos de audiencia, ranking y distribución geográfica.
- Cross-ranking con SEMrush, SimilarWeb y Moz para una visión multi-fuente comparable.
- Estimación de ingresos publicitarios y clasificación automática por tier de relevancia.
- Sincronización automática con productos internos y con clientes que necesitan segmentar su universo de medios.
Valor publicitario automático (AdValue)
Cálculo del valor económico equivalente de cada mención, por canal, con fórmulas diferenciadas y datos de mercado.
Cómo la aplicamos
- Medios analógicos (prensa, radio, TV): tarifas oficiales por superficie u ocupación con IVA incorporado.
- Redes sociales: cálculo (impresiones × CPM) / 1000 con CPMs específicos por plataforma (TikTok, YouTube, Instagram, X, Facebook).
- Medios digitales: ingreso publicitario diario estimado del medio × cuota de visualización de la pieza.
- Resultado en USD comparables entre canales — base directa para ROI y justificación de inversión en comunicación.
Text and Data Mining (TDM)
El marco técnico-legal sobre el que se construye todo lo demás.
Cómo la aplicamos
- TDM sobre fuentes públicas lícitas al amparo del Art. 4 de la Directiva (UE) 2019/790.
- Respeto a reservas de derechos legibles por máquina (robots.txt, headers, metadatos estandarizados).
- Verificador automático de opt-outs operando de forma continua sobre nuestra base completa de medios.
- Naturaleza transformada del resultado entregado: ~80–90% de procesamiento sobre la fuente original.
Hacia dónde estamos mirando
Más allá de lo que ya está en producción, mantenemos líneas de investigación abiertas sobre las direcciones que marcarán la próxima generación de productos basados en datos.
Model Context Protocol (MCP)
Exposición de nuestro catálogo semántico como servidor MCP, de forma que modelos como Claude o GPT puedan consultar directamente nuestra infraestructura sin integraciones a medida.
Nuevas categorías de producto basado en datos
Líneas de investigación interna sobre nuevos productos que aprovechen el universo público de Internet de formas que el mercado actual no cubre.
¿Necesitas algo a medida?
Si tu caso no encaja en un producto estándar, ofrecemos servicios de desarrollo de soluciones a medida basadas en datos e IA. Data lakes, integraciones, modelos específicos, dashboards propios. Hablamos.
Hablar con el equipo →