{"id":136,"date":"2025-09-25T08:39:38","date_gmt":"2025-09-25T13:39:38","guid":{"rendered":"https:\/\/marybernalj.com\/blog\/?p=136"},"modified":"2026-01-16T08:57:40","modified_gmt":"2026-01-16T13:57:40","slug":"arquitectura-de-datos-para-ia","status":"publish","type":"post","link":"https:\/\/marybernalj.com\/blog\/index.php\/2025\/09\/25\/arquitectura-de-datos-para-ia\/","title":{"rendered":"Arquitectura de datos para IA"},"content":{"rendered":"\n<p>Cuando los datos dejan de informar y empiezan a entrenar<\/p>\n\n\n\n<p><strong>Serie \u00b7 Data Architecture Stories<\/strong><br><em>De los datos al conocimiento: c\u00f3mo dise\u00f1ar infraestructuras con prop\u00f3sito<\/em><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"655\" src=\"https:\/\/marybernalj.com\/blog\/wp-content\/uploads\/2026\/01\/architecture-AI.jpg\" alt=\"\" class=\"wp-image-137\"\/><\/figure>\n\n\n\n<p>En los primeros posts de esta serie hablamos de estructura, de cimientos invisibles y de c\u00f3mo los entornos de datos han evolucionado desde esquemas r\u00edgidos hacia plataformas m\u00e1s flexibles y vivas. Todo ese recorrido ten\u00eda un objetivo claro: llegar al punto en el que los datos dejan de servir \u00fanicamente al an\u00e1lisis y comienzan a sostener sistemas que aprenden. Porque, cuando se habla de inteligencia artificial, el mayor desaf\u00edo rara vez est\u00e1 en el modelo; casi siempre est\u00e1 en los datos y en c\u00f3mo han sido organizados.<\/p>\n\n\n\n<p>Hoy muchas organizaciones buscan incorporar IA sin revisar primero c\u00f3mo fluye, se transforma y se gobierna su informaci\u00f3n. No es casual que distintos estudios reporten que entre el 70% y el 85% de los proyectos de inteligencia artificial no logran generar valor sostenido o fracasan al pasar a producci\u00f3n. Informes de MIT (2025) y Gartner (2025) coinciden en que las principales causas no son algor\u00edtmicas, sino problemas de calidad, disponibilidad, integraci\u00f3n y gobernanza de datos. En otras palabras, se intenta construir inteligencia sobre bases que no fueron pensadas para aprender.<\/p>\n\n\n\n<p>En entornos anal\u00edticos tradicionales, los sistemas responden preguntas retrospectivas: qu\u00e9 ocurri\u00f3, cu\u00e1nto se vendi\u00f3 o c\u00f3mo cambi\u00f3 un indicador. En IA, las preguntas son m\u00e1s exigentes: \u00bfcon qu\u00e9 datos aprende el sistema?, \u00bfqu\u00e9 historia temporal contienen?, \u00bfc\u00f3mo se detectan y corrigen errores?, \u00bfpodemos explicar por qu\u00e9 una predicci\u00f3n fue distinta para dos personas similares? En este contexto, los datos dejan de ser un insumo para reportes y se convierten en el material de entrenamiento del sistema. Aqu\u00ed aparece de forma natural la necesidad de pr\u00e1cticas como el <em>Data Stewardship<\/em>: roles y responsabilidades claras para garantizar que los datos tengan due\u00f1o, contexto y reglas expl\u00edcitas a lo largo de su ciclo de vida.<\/p>\n\n\n\n<p>Esto explica por qu\u00e9, seg\u00fan IBM y O\u2019Reilly, entre el 60% y el 80% del esfuerzo de un proyecto de machine learning se dedica a preparar datos: limpiar, integrar, versionar, documentar y contextualizar. Cuando ese trabajo no est\u00e1 respaldado por un dise\u00f1o s\u00f3lido de flujos, almacenamiento y control, los modelos se vuelven fr\u00e1giles, dif\u00edciles de explicar y a\u00fan m\u00e1s dif\u00edciles de mantener en el tiempo.<\/p>\n\n\n\n<p>Aqu\u00ed es donde todo lo discutido en los posts anteriores cobra sentido. La estructura de los datos, de la que hablamos al inicio de la serie, es la que permite conservar contexto e historia. Los cimientos invisibles, ingesta, almacenamiento, procesamiento y consumo, son los que garantizan trazabilidad y coherencia. La transici\u00f3n del data warehouse al data lake y luego a esquemas h\u00edbridos habilita combinar estabilidad con flexibilidad. Y el enfoque orientado a decidir, no solo a reportar, es el que permite que los sistemas empiecen a mirar hacia adelante.<\/p>\n\n\n\n<p>En la pr\u00e1ctica, un entorno preparado para IA necesita algo m\u00e1s que grandes vol\u00famenes de informaci\u00f3n. Requiere datos hist\u00f3ricos bien organizados, no solo valores actuales. Necesita separar claramente datos crudos, datos procesados y datos listos para entrenamiento. Exige versionar no solo modelos, sino tambi\u00e9n los conjuntos de datos que los alimentan. Demanda reglas de calidad integradas al flujo, porque la IA no corrige errores: los amplifica. Y, sobre todo, debe estar dise\u00f1ado para iterar y retroalimentarse, no para pipelines est\u00e1ticos pensados solo para reportes. Es precisamente en este punto donde disciplinas como <em>MLOps<\/em> comienzan a cobrar relevancia, conectando datos, modelos y operaci\u00f3n continua.<\/p>\n\n\n\n<p>Un escenario frecuente es el de organizaciones que desarrollan modelos con buen desempe\u00f1o en pruebas, pero que fallan al pasar a producci\u00f3n. Al analizar el problema, no se encuentra un error en el algoritmo, sino datos incompletos, cambios silenciosos en las fuentes o la imposibilidad de reconstruir con qu\u00e9 informaci\u00f3n se entren\u00f3 una predicci\u00f3n pasada. La soluci\u00f3n rara vez es cambiar el modelo; casi siempre implica redise\u00f1ar c\u00f3mo se gestionan los datos a lo largo de su ciclo de vida.<\/p>\n\n\n\n<p>Este desaf\u00edo no es solo t\u00e9cnico, tambi\u00e9n es cultural. Los entornos que logran escalar la IA son aquellos que dejan de ver los datos como un subproducto operativo y comienzan a tratarlos como un activo estrat\u00e9gico. Aprender implica aceptar errores, medirlos y corregirlos. Implica que la calidad de la informaci\u00f3n no es responsabilidad de un solo equipo, sino un acuerdo organizacional. Las empresas que avanzan en IA no son necesariamente las que usan los modelos m\u00e1s complejos, sino las que construyen sistemas capaces de aprender de forma continua y responsable.<\/p>\n\n\n\n<p>Si hoy est\u00e1s pensando en incorporar inteligencia artificial, antes de hablar de algoritmos conviene hacerse algunas preguntas clave: \u00bfs\u00e9 de d\u00f3nde provienen los datos que entrenan mis modelos?, \u00bfpuedo reproducir una predicci\u00f3n hecha hace seis meses?, \u00bftengo mecanismos para detectar sesgos o degradaci\u00f3n en los datos?, \u00bfmis sistemas est\u00e1n pensados para aprender o solo para reportar? Si alguna de estas respuestas es negativa, el principal obst\u00e1culo no es la IA, sino la forma en que se gestionan los datos.<\/p>\n\n\n\n<p>Esta serie comenz\u00f3 hablando de estructura y termina hablando de aprendizaje. Porque, al final, la inteligencia artificial no empieza en el modelo, sino en la manera en que organizamos el conocimiento. Los datos son el lenguaje con el que aprenden los sistemas. Y la forma en que los dise\u00f1amos define hasta d\u00f3nde pueden llegar.<\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cuando los datos dejan de informar y empiezan a entrenar Serie \u00b7 Data Architecture StoriesDe los datos al conocimiento: c\u00f3mo dise\u00f1ar infraestructuras con prop\u00f3sito En los primeros posts de esta serie hablamos de estructura, de cimientos invisibles y de c\u00f3mo los entornos de datos han evolucionado desde esquemas r\u00edgidos hacia plataformas m\u00e1s flexibles y vivas. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[5,23,7,22],"class_list":["post-136","post","type-post","status-publish","format-standard","hentry","category-data-analitica","tag-analytics","tag-arquitectura","tag-dataarchitecture","tag-datos"],"_links":{"self":[{"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/posts\/136","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/comments?post=136"}],"version-history":[{"count":1,"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/posts\/136\/revisions"}],"predecessor-version":[{"id":138,"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/posts\/136\/revisions\/138"}],"wp:attachment":[{"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/media?parent=136"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/categories?post=136"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/marybernalj.com\/blog\/index.php\/wp-json\/wp\/v2\/tags?post=136"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}