Especialización técnica

Disciplinas en las que trabajamos.

Un mapa de las técnicas, modelos y tecnologías que dominamos. Algunas viven en nuestros productos. Otras las investigamos y las aplicamos en servicios a medida.

01I · La materia prima 02II · Comprensión semántica 03III · Decisión accionable 04IV · Infraestructura de datos 05V · Métricas de valor →Investigación

Por qué desarrollamos en casa

Una empresa de análisis de datos depende de su capacidad de transformar información en activo. Si esa transformación la hace un proveedor externo, no eres una empresa de análisis de datos: eres un revendedor con marca propia.

Desarrollar en casa nos da tres cosas que ningún proveedor puede dar: control sobre el roadmap, velocidad para adaptar la tecnología a casos reales de cliente y coherencia entre las distintas líneas de actividad.

I · La materia prima

Procesamiento industrial bajo marco TDM

El acceso a fuentes públicas a escala industrial no es trivial: requiere infraestructura propia para autenticación, anti-bot lícito y cumplimiento legal automatizado. Todo lo que viene después depende de hacer esto bien.

Clusters distribuidos de análisis

Arquitectura distribuida sobre las grandes redes sociales (Facebook, X/Twitter, Instagram, TikTok, Telegram, Reddit) con balanceo, rotación de usuarios por país y resiliencia a rate limits.

APIs directas integradas

Conexión directa con APIs oficiales (Meta Graph, X/Twitter API, Reddit API) y proveedores especializados (RapidAPI, Apify) cuando es la vía adecuada para el caso.

Anti-bot lícito sobre medios con paywall

Integración con ScrapFly + Playwright y FlareSolverr para gestionar Cloudflare, DataDome, PerimeterX y Akamai sobre cabeceras de pago — manteniendo el marco legal TDM y respetando opt-outs.

Cookies y sesiones centralizadas (PupCookies)

Sistema propio de refresco automático de cookies con Puppeteer. Centraliza autenticación de 20+ medios con paywall — secuencias de login multi-paso, validación de sesión y actualización en tiempo real.

Cumplimiento LPI automatizado

Verificador automático de opt-outs sobre robots.txt, headers HTTP y meta tags. Análisis sistemático de la base completa de medios (~130K) con scoring de restricciones y trazabilidad.

Bypass de geolocalización lícito

Routing por país de origen y proxy residencial cuando es necesario para acceder a fuentes regionales — siempre dentro de la excepción TDM y la naturaleza pública del acceso.

II · Comprensión semántica

De información bruta a inteligencia estructurada

Una vez tenemos la materia prima, la convertimos en datos estructurados que se pueden consultar, filtrar, agregar y comparar. Esto es lo que hace la diferencia entre un lago de texto y un activo de negocio.

Disciplina

Procesamiento de Lenguaje Natural (NLP)

Limpieza, normalización y comprensión semántica de texto multi-idioma a escala industrial.

Cómo la aplicamos

Detección de idioma, tokenización, lematización y deduplicación semántica de contenido.
Reconocimiento de Entidades (NER) multi-idioma: personas, organizaciones, marcas, productos y lugares.
Categorización sectorial con modelos propios: hasta 20+ categorías temáticas ajustables por cliente.
Sentimiento canónico normalizado (escala −100 / +100) comparable entre fuentes, idiomas y productos.
Análisis de tono independiente del sentimiento (formal, informal, agresivo, conciliador, irónico).
Protagonismo de marca (0–100): discrimina entre mención casual y análisis profundo en el mismo texto.
Geolocalización de usuarios en redes sociales: corrige errores de la IA con un sistema propio cubriendo 10+ países.

Disciplina

Modelos de Lenguaje (LLMs)

Uso productivo de LLMs propietarios y open-source para resúmenes, clasificación y reformulación a gran escala.

Cómo la aplicamos

Selección del LLM fundacional adecuado según caso de uso, coste y sensibilidad del cliente. La decisión la toma el arquitecto de GeriAI, no está atada a un proveedor único.
Prompts diseñados en colaboración con el cliente para garantizar criterios sectoriales y reproducibilidad.
Control de coste por registro: tracking de tokens de entrada/salida y reconciliación financiera.
Salidas estructuradas (JSON) parseables y persistentes en base de datos para consultas posteriores.

Disciplina

Embeddings y búsqueda semántica

Representación vectorial de texto y búsqueda por significado, no por coincidencia exacta.

Cómo la aplicamos

Evaluación científica de modelos de embeddings (MiniLM, E5-small, MPNet, BGE, Jina) sobre tareas reales.
Modelo en producción: multilingual-e5-small por equilibrio calidad/rendimiento medido (top1-sim 0,89).
Fusión de rankings (Reciprocal Rank Fusion) combinando búsqueda fuzzy y semántica.
Indexación incremental sobre bases de conocimiento corporativas y por cliente.

III · Decisión accionable

Convertir el análisis en acción

La inteligencia no sirve si no llega al usuario adecuado en el momento adecuado. Esta capa convierte el catálogo semántico en alertas, informes y acciones automatizadas.

Disciplina

Modelos predictivos y de alerta temprana

Detección de tendencias y eventos antes de que se vuelvan virales o críticos.

Cómo la aplicamos

Detección automática de temas emergentes en ventanas de tiempo configurables.
Scoring de probabilidad e impacto sobre eventos detectados.
Modelos de protagonismo de marca y voz en el contenido analizado.
Alertas en tiempo real entregadas por Telegram, email u otros canales.

GeriAI · Mochis

Agentes autónomos

Agentes que razonan sobre contexto, deciden qué importa y generan el mensaje. No son reglas: son razonamiento.

Ver GeriAI (capa cognitiva) →

Cómo la aplicamos

Identificación automática de los temas más relevantes en cada período sobre el catálogo semántico.
Generación de borradores de contenido editorial e informes narrativos a partir del análisis.
Agentes especializados por dominio: encuestas, elecciones, RRPP, observatorios sectoriales.
Chatbots conversacionales y knowledge bots sobre bases de conocimiento propias o de cliente.
Orquestador en lenguaje natural: alta automática de servicios a partir de briefings en texto libre — de horas a minutos.

IV · Infraestructura de datos

La capa que lo sostiene todo

Una arquitectura híbrida operacional/analítica funcionando 24/7, dimensionada para los volúmenes reales del universo público de Internet.

Disciplina

Pipelines Big Data y Elasticsearch

Infraestructura batch 24/7 que sostiene todo el resto. MySQL operacional + BigQuery analítico + Elasticsearch para búsqueda en tiempo real.

Cómo la aplicamos

Pipelines de procesamiento, análisis y enriquecimiento sobre cientos de fuentes y APIs integradas.
Cuatro clusters Elasticsearch separados por dominio temático (Prensa, DG, PRO, Social) con índices temporales mensuales.
Volúmenes en producción: del orden de 3–7M de publicaciones analizadas de prensa digital y de 300K–4M de señales en redes sociales procesadas al mes.
Sincronización cross-schema entre MySQL operacional y BigQuery analítico para histórico y modelos.
Resiliencia industrial: retries, throttling y entrega regular sin pérdidas en ventana habitual.

V · Métricas de valor

Del dato al impacto económico

Lo que mide nuestra infraestructura no se queda en cifras técnicas: se traduce en valor publicitario, en tier de medios y en métricas de impacto comparables.

Disciplina

Enriquecimiento automático de medios (MediaAudit)

Pipeline ETL propio que mantiene actualizado un catálogo cross-source de medios digitales globales.

Cómo la aplicamos

Más de 10.000 medios catalogados con metadatos de audiencia, ranking y distribución geográfica.
Cross-ranking con SEMrush, SimilarWeb y Moz para una visión multi-fuente comparable.
Estimación de ingresos publicitarios y clasificación automática por tier de relevancia.
Sincronización automática con productos internos y con clientes que necesitan segmentar su universo de medios.

Disciplina

Valor publicitario automático (AdValue)

Cálculo del valor económico equivalente de cada mención, por canal, con fórmulas diferenciadas y datos de mercado.

Cómo la aplicamos

Medios analógicos (prensa, radio, TV): tarifas oficiales por superficie u ocupación con IVA incorporado.
Redes sociales: cálculo (impresiones × CPM) / 1000 con CPMs específicos por plataforma (TikTok, YouTube, Instagram, X, Facebook).
Medios digitales: ingreso publicitario diario estimado del medio × cuota de visualización de la pieza.
Resultado en USD comparables entre canales — base directa para ROI y justificación de inversión en comunicación.

Operativa

Prácticas de análisis responsables

Reglas del juego que aplicamos a todo el análisis, sean cuales sean el sector y el idioma.

Cómo la aplicamos

Análisis de fuentes lícitas del universo público de Internet.
Respeto a reservas de derechos legibles por máquina (robots.txt, headers, metadatos estandarizados).
Verificador automático de opt-outs operando de forma continua sobre nuestra base completa de medios.
Naturaleza transformada del resultado entregado: ~80–90% de procesamiento sobre la fuente original.

→

Investigación

Hacia dónde estamos mirando

Más allá de lo que ya está en producción, mantenemos líneas de investigación abiertas sobre las direcciones que marcarán la próxima generación de productos basados en datos.

FUTURO / RESEARCH

Model Context Protocol (MCP)

Exposición de nuestro catálogo semántico como servidor MCP (estándar Anthropic), de forma que LLMs externos puedan consultar directamente nuestra infraestructura sin integraciones a medida.

Ver GeriAI →

FUTURO / RESEARCH

Nuevas categorías de producto basado en datos

Líneas de investigación interna sobre nuevos productos que aprovechen el universo público de Internet de formas que el mercado actual no cubre.

Proponer un caso →

Hablamos

¿Necesitas algo a medida?

Si tu caso no encaja en un producto estándar, ofrecemos servicios de desarrollo de soluciones a medida basadas en datos e IA. Data lakes, integraciones, modelos específicos, dashboards propios. Hablamos.

Hablar con el equipo

Respuesta en menos de 24h · SAT + Sales