{"id":34691,"date":"2025-12-16T13:10:29","date_gmt":"2025-12-16T12:10:29","guid":{"rendered":"https:\/\/www.codemotion.com\/magazine\/?p=34691"},"modified":"2025-12-16T13:11:46","modified_gmt":"2025-12-16T12:11:46","slug":"la-arquitectura-del-gateway-multiservicio-de-ia-generativa","status":"publish","type":"post","link":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/","title":{"rendered":"La arquitectura del Gateway Multiservicio de IA Generativa"},"content":{"rendered":"\n<p><em>La arquitectura del <strong>Gateway Multiservicio de IA Generativa<\/strong> es clave para escalar aplicaciones con LLMs de forma segura y rentable.<\/em> Ya no se trata solo de \u201cintegrar IA\u201d, sino de hacerlo de manera <strong>escalable, rentable y agn\u00f3stica al proveedor<\/strong>. La arquitectura de referencia del <em>Generative AI Gateway<\/em> centraliza acceso, gobernanza y observabilidad para m\u00faltiples proveedores de modelos, reduciendo costos operativos y riesgos mientras acelera despliegues productivos.&nbsp;<\/p>\n\n\n\n<p>A medida que escalamos el uso de <a href=\"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/ingenieria-de-prompts-y-el-potencial-oculto-de-los-llms\/\">LLMs<\/a> (Large Language Models), conectarse directamente a proveedores como OpenAI, Anthropic o Bedrock desde cada microservicio es una receta para el desastre: costos impredecibles, latencia no gestionada y el temido <em>vendor lock-in<\/em>.<\/p>\n\n\n\n<p>La soluci\u00f3n de nivel experto es implementar una <strong>Arquitectura de referencia de Gateway de IA Generativa multiservicio<\/strong>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-gateway-multiservicio-de-ia-generativa-arquitectura-de-referencia\"><strong>Gateway Multiservicio de IA Generativa: arquitectura de referencia<\/strong><\/h2>\n\n\n\n<p>El <strong>Gateway de <a href=\"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/ia-generativa-quien-controla-la-narrativa-poder-etica-y-censura-en-la-era-digital\/\">IA Generativa<\/a> multiservicio<\/strong> act\u00faa como capa unificadora entre aplicaciones y m\u00faltiples proveedores de modelos (cloud y on\u2011prem), ofreciendo <strong>ruteo inteligente<\/strong>, <strong>enriquecimiento de datos<\/strong>, <strong>cach\u00e9<\/strong>, <strong>telemetr\u00eda<\/strong> y <strong>pol\u00edticas de seguridad<\/strong>. Esta referencia ha sido promovida por proveedores cloud como AWS y Microsoft para escalar IA en empresas con control y gobernanza centralizada.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter\"><a class=\"alt=&quot;Shutterstock&quot;\" href=\"https:\/\/encrypted-tbn2.gstatic.com\/licensed-image?q=tbn:ANd9GcT8LzOVygk1PsUBsI0uAq3IkfluYabRLjzMPZPvpNt6IFCf8n2e69wCtOjm2R1XahBQjYn99Vnl2dgFeI-QOjO_GHwUW7CdjO-lzXai-4JK41iGDNI\" target=\"_blank\" rel=\" noreferrer noopener\"><img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"523\" src=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/0V_kidf-cLiz4jasc.jpg\" alt=\"\" class=\"wp-image-34892\" srcset=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/0V_kidf-cLiz4jasc.jpg 800w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/0V_kidf-cLiz4jasc-300x196.jpg 300w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/0V_kidf-cLiz4jasc-768x502.jpg 768w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><\/a><\/figure>\n<\/div>\n\n\n<h3 class=\"wp-block-heading\" id=\"h-enrutamiento-dinamico-e-inteligente-model-nbsp-routing\"><strong>Enrutamiento din\u00e1mico e inteligente (Model&nbsp;Routing)<\/strong><\/h3>\n\n\n\n<p>El Gateway act\u00faa como un \u201ccontrolador de tr\u00e1fico a\u00e9reo\u201d. No env\u00edes todas las consultas a GPT-4 si una tarea simple puede ser resuelta por Llama-3 o GPT-3.5-Turbo.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Optimizaci\u00f3n:<\/strong> el Gateway analiza la complejidad del prompt y lo enruta al modelo m\u00e1s eficiente en t\u00e9rminos de costo\/rendimiento.<\/li>\n\n\n\n<li><strong>Resultado:<\/strong> reducci\u00f3n de costos de hasta un 40% sin sacrificar calidad.<\/li>\n<\/ul>\n\n\n\n<p><strong><em>Principios de optimizaci\u00f3n operativa:<\/em><\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Centralizar control<\/strong>: un \u00fanico punto para autenticaci\u00f3n, cuotas y encriptaci\u00f3n reduce la superficie de riesgo.<\/li>\n\n\n\n<li><strong>Ruteo por costo\/latencia<\/strong>: enviar peticiones al proveedor \u00f3ptimo seg\u00fan pol\u00edtica (precio, latencia, capacidad).<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"h-ejemplo-de-gateway-simple-con-ruteo-por-nbsp-costo\"><strong><em>Ejemplo de gateway simple con ruteo por&nbsp;costo<\/em><\/strong><\/h4>\n\n\n<pre class=\"wp-block-code\" aria-describedby=\"shcb-language-1\" data-shcb-language-name=\"PHP\" data-shcb-language-slug=\"php\"><span><code class=\"hljs language-php\"><span class=\"hljs-comment\"># gateway.py (conceptual)<\/span>\nimport requests, time\n\nPROVIDERS = {\n    <span class=\"hljs-string\">\"cheap\"<\/span>: {<span class=\"hljs-string\">\"url\"<\/span>:<span class=\"hljs-string\">\"https:\/\/jsonplaceholder.typicode.com\/posts\/1\"<\/span>,<span class=\"hljs-string\">\"cost\"<\/span>:<span class=\"hljs-number\">0.01<\/span>},\n    <span class=\"hljs-string\">\"fast\"<\/span>:  {<span class=\"hljs-string\">\"url\"<\/span>:<span class=\"hljs-string\">\"https:\/\/jsonplaceholder.typicode.com\/posts\/2\"<\/span>,<span class=\"hljs-string\">\"cost\"<\/span>:<span class=\"hljs-number\">0.05<\/span>}\n}\n\ndef choose_provider(latency_budget_ms=<span class=\"hljs-number\">200<\/span>):\n    <span class=\"hljs-comment\"># pol\u00edtica simple: prefer barato si latencia estimada aceptable<\/span>\n    <span class=\"hljs-keyword\">if<\/span> latency_budget_ms &gt; <span class=\"hljs-number\">150<\/span>:\n        <span class=\"hljs-keyword\">return<\/span> PROVIDERS&#91;<span class=\"hljs-string\">\"cheap\"<\/span>]\n    <span class=\"hljs-keyword\">return<\/span> PROVIDERS&#91;<span class=\"hljs-string\">\"fast\"<\/span>]\n\ndef call_model(prompt, latency_budget_ms=<span class=\"hljs-number\">200<\/span>):\n    provider = choose_provider(latency_budget_ms)\n    start = time.time()\n    <span class=\"hljs-comment\"># Using a GET request for jsonplaceholder as it's a dummy API for demonstration<\/span>\n    <span class=\"hljs-comment\"># In a real scenario, this would likely be a POST request to a generation API<\/span>\n    resp = requests.get(provider&#91;<span class=\"hljs-string\">\"url\"<\/span>], timeout=<span class=\"hljs-number\">5<\/span>) <span class=\"hljs-comment\"># Changed to .get()<\/span>\n    duration = (time.time()-start)*<span class=\"hljs-number\">1000<\/span>\n    <span class=\"hljs-comment\"># registrar m\u00e9tricas (simplificado)<\/span>\n    <span class=\"hljs-keyword\">print<\/span>(f<span class=\"hljs-string\">\"provider={provider&#91;'url']} duration_ms={duration:.1f} cost={provider&#91;'cost']}\"<\/span>)\n    <span class=\"hljs-keyword\">return<\/span> resp.json()\n\n<span class=\"hljs-keyword\">if<\/span> __name__ == <span class=\"hljs-string\">\"__main__\"<\/span>:\n    <span class=\"hljs-keyword\">print<\/span>(call_model(<span class=\"hljs-string\">\"Resume este texto en 50 palabras\"<\/span>, latency_budget_ms=<span class=\"hljs-number\">180<\/span>))<\/code><\/span><small class=\"shcb-language\" id=\"shcb-language-1\"><span class=\"shcb-language__label\">Code language:<\/span> <span class=\"shcb-language__name\">PHP<\/span> <span class=\"shcb-language__paren\">(<\/span><span class=\"shcb-language__slug\">php<\/span><span class=\"shcb-language__paren\">)<\/span><\/small><\/pre>\n\n\n<p>Este gateway decide el proveedor seg\u00fan presupuesto de latencia y registra m\u00e9tricas b\u00e1sicas; en producci\u00f3n se reemplaza <code>print<\/code> por export a Prometheus\/OTel y se a\u00f1ade cach\u00e9 y circuit breakers.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-resiliencia-y-fallback-automatico\"><strong>Resiliencia y fallback autom\u00e1tico<\/strong><\/h3>\n\n\n\n<p>\u00bfQu\u00e9 pasa si la API de tu proveedor principal se cae? (S\u00ed, sucede).<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>La estrategia:<\/strong> el Gateway detecta el error 5xx o el <em>timeout<\/em> y redirige autom\u00e1ticamente la solicitud a un proveedor secundario (ejemplo: de Azure OpenAI a AWS Bedrock).<\/li>\n\n\n\n<li><strong>Resultado:<\/strong> uptime del 99.9% para tus aplicaciones finales, independientemente de la estabilidad de un solo proveedor.<\/li>\n<\/ul>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter\"><a class=\"alt=&quot;Diagrama de ruteo inteligente en Gateway Multiservicio&quot;\" href=\"https:\/\/lh3.googleusercontent.com\/gg\/AIJ2gl8N8Efsw3YSpkdzCk5-MfBpyp3v4Yg6nPuKSRXrxmuNUB-lyG8S_J7aANEEZTVlRUN97Dkms_k0xT_WYlV2cTceO9PpyWEJLUv7bqC-i3cy94sRedAnhJ1VLsc2BWjkEo_xgcMn-s0qVCpObUvd1EizwfsAznH0uYvEjdeDvXUNalpakqsRwjZMzbQcUwwbKeeI-tmI7FuqQBDpCe0AacDq9sobjEJl0HNeivT0Xs-Mmc7OQCQXAf0dcMDudDENuwekgdA9qgX65SVHIP_vL9ivS2mkrKuCaIZr4SrhHvaOhbVvbqnVsDzSKwCKrc5X3xf0kfhneM0Te5AOGqwAPxXw=s1024-rj\" target=\"_blank\" rel=\" noreferrer noopener\"><img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"436\" src=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1oaWrSoY8sxC7wyibNe-Pqg.png\" alt=\"\" class=\"wp-image-34894\" srcset=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1oaWrSoY8sxC7wyibNe-Pqg.png 800w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1oaWrSoY8sxC7wyibNe-Pqg-300x164.png 300w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1oaWrSoY8sxC7wyibNe-Pqg-768x419.png 768w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><\/a><\/figure>\n<\/div>\n\n\n<h3 class=\"wp-block-heading\" id=\"h-semantic-caching\"><strong>Semantic caching<\/strong><\/h3>\n\n\n\n<p>\u00bfPor qu\u00e9 pagar dos veces por la misma pregunta?<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>La t\u00e9cnica:<\/strong> A diferencia del cach\u00e9 tradicional (clave-valor), el cach\u00e9 sem\u00e1ntico entiende el <em>significado<\/em>. Si un usuario pregunta \u201c\u00bfC\u00f3mo restablezco mi contrase\u00f1a?\u201d y otro pregunta \u201c\u00bfPasos para cambiar el password?\u201d, el Gateway detecta la similitud sem\u00e1ntica y sirve la respuesta guardada.<\/li>\n\n\n\n<li><strong>Resultado:<\/strong> latencia de milisegundos para preguntas frecuentes y ahorro masivo de tokens.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"h-ejemplo-de-enriquecimiento-y-nbsp-cache\"><strong><em>Ejemplo de enriquecimiento y&nbsp;cach\u00e9<\/em><\/strong><\/h4>\n\n\n<pre class=\"wp-block-code\" aria-describedby=\"shcb-language-2\" data-shcb-language-name=\"JavaScript\" data-shcb-language-slug=\"javascript\"><span><code class=\"hljs language-javascript\"><span class=\"hljs-comment\">\/\/ proxy.js<\/span>\n<span class=\"hljs-keyword\">const<\/span> express = <span class=\"hljs-built_in\">require<\/span>(<span class=\"hljs-string\">'express'<\/span>);\n<span class=\"hljs-keyword\">const<\/span> LRU = <span class=\"hljs-built_in\">require<\/span>(<span class=\"hljs-string\">'lru-cache'<\/span>);\n<span class=\"hljs-keyword\">const<\/span> app = express();\n\napp.use(express.json());\n\n<span class=\"hljs-keyword\">const<\/span> cache = <span class=\"hljs-keyword\">new<\/span> LRU({\n  <span class=\"hljs-attr\">max<\/span>: <span class=\"hljs-number\">500<\/span>,\n  <span class=\"hljs-attr\">ttl<\/span>: <span class=\"hljs-number\">60<\/span> * <span class=\"hljs-number\">1000<\/span> <span class=\"hljs-comment\">\/\/ 1 minuto<\/span>\n});\n\napp.post(<span class=\"hljs-string\">'\/generate'<\/span>, <span class=\"hljs-keyword\">async<\/span> (req, res) =&gt; {\n  <span class=\"hljs-keyword\">try<\/span> {\n    <span class=\"hljs-keyword\">const<\/span> prompt = req.body.prompt;\n    <span class=\"hljs-keyword\">const<\/span> key = <span class=\"hljs-string\">`g:<span class=\"hljs-subst\">${prompt}<\/span>`<\/span>;\n\n    <span class=\"hljs-keyword\">if<\/span> (cache.has(key)) {\n      <span class=\"hljs-keyword\">return<\/span> res.json(cache.get(key));\n    }\n\n    <span class=\"hljs-comment\">\/\/ enriquecer prompt con contexto del usuario<\/span>\n    <span class=\"hljs-keyword\">const<\/span> enriched = <span class=\"hljs-string\">`&#91;user:premium] <span class=\"hljs-subst\">${prompt}<\/span>`<\/span>;\n\n    <span class=\"hljs-keyword\">const<\/span> r = <span class=\"hljs-keyword\">await<\/span> fetch(<span class=\"hljs-string\">'https:\/\/api-fast.example\/v1\/generate'<\/span>, {\n      <span class=\"hljs-attr\">method<\/span>: <span class=\"hljs-string\">'POST'<\/span>,\n      <span class=\"hljs-attr\">headers<\/span>: { <span class=\"hljs-string\">'Content-Type'<\/span>: <span class=\"hljs-string\">'application\/json'<\/span> },\n      <span class=\"hljs-attr\">body<\/span>: <span class=\"hljs-built_in\">JSON<\/span>.stringify({ <span class=\"hljs-attr\">prompt<\/span>: enriched })\n    });\n\n    <span class=\"hljs-keyword\">const<\/span> data = <span class=\"hljs-keyword\">await<\/span> r.json();\n\n    cache.set(key, data);\n\n    res.json(data);\n\n  } <span class=\"hljs-keyword\">catch<\/span> (err) {\n    <span class=\"hljs-built_in\">console<\/span>.error(err);\n    res.status(<span class=\"hljs-number\">500<\/span>).json({ <span class=\"hljs-attr\">error<\/span>: <span class=\"hljs-string\">'internal-error'<\/span> });\n  }\n});\n\napp.listen(<span class=\"hljs-number\">3000<\/span>, () =&gt; <span class=\"hljs-built_in\">console<\/span>.log(<span class=\"hljs-string\">'Proxy running on port 3000'<\/span>));<\/code><\/span><small class=\"shcb-language\" id=\"shcb-language-2\"><span class=\"shcb-language__label\">Code language:<\/span> <span class=\"shcb-language__name\">JavaScript<\/span> <span class=\"shcb-language__paren\">(<\/span><span class=\"shcb-language__slug\">javascript<\/span><span class=\"shcb-language__paren\">)<\/span><\/small><\/pre>\n\n\n<p>El enriquecimiento mejora relevancia; la cach\u00e9 reduce costos y latencia.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-observabilidad-unificada\"><strong>Observabilidad unificada<\/strong><\/h3>\n\n\n\n<p>Dejar de adivinar qu\u00e9 est\u00e1 pasando.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>La visibilidad:<\/strong> centraliza logs, m\u00e9tricas de latencia, conteo de tokens y trazas distribuidas en un solo dashboard, independientemente de si usas 5 modelos diferentes por debajo.<\/li>\n<\/ul>\n\n\n\n<p><strong><em>Principio de optimizaci\u00f3n operativa:<\/em><\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Observabilidad y trazabilidad<\/strong>: logs, m\u00e9tricas y trazas por petici\u00f3n para auditor\u00eda y tuning.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-seguridad-y-sanitizacion-centralizada\"><strong>Seguridad y sanitizaci\u00f3n centralizada<\/strong><\/h3>\n\n\n\n<p>Nunca conf\u00edes en que cada desarrollador implementar\u00e1 correctamente el enmascaramiento de datos PII (Informaci\u00f3n Personal Identificable).<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>El control:<\/strong> el Gateway intercepta el prompt <em>antes<\/em> de que salga de tu VPC, busca patrones sensibles (emails, tarjetas de cr\u00e9dito) y los redacta o enmascara.<\/li>\n\n\n\n<li><strong>Resultado:<\/strong> cumplimiento normativo (GDPR\/HIPAA) forzado por arquitectura, no por pol\u00edtica.<\/li>\n<\/ul>\n\n\n\n<p><strong><em>Principio de optimizaci\u00f3n operativa:<\/em><\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Enriquecimiento y post\u2011procesado<\/strong>: pipelines que agregan contexto (datos maestros, embeddings) antes de llamar al modelo. Estas pr\u00e1cticas est\u00e1n alineadas con las gu\u00edas de referencia para gateways GenAI en Azure y AWS.<\/li>\n<\/ul>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter\"><a class=\"alt=&quot;Ruteo inteligente en Gateway Multiservicio&quot;\" href=\"https:\/\/lh3.googleusercontent.com\/gg\/AIJ2gl97Ua9rkuVr4AMJqMxetFn-a1JBUJK2bAZNP0feciChSCixB0nfEWdrfba1P1MXNyzCbvqQzCrVGsF_D9Dm_IzyEybkrL9-KYr3oYcbajx2BPllenQ1EioBTMUsJ0BSBcUW0QCNdlqKpCziv6rl3hBATpiRTlEOvBDya9wtGuaHZYXwQYukC7sld1jx3BPkeC5E-5Uz9wO6i4cJ5BGZfXZXFg_xb1I2IyVlp-l4OQjz_mODBAbX0tL8svgBNa180nJ3LZWIZRVXL43Cn5xM_XDjK9UfgA4AYJzgoTBjAcQ_PbgVLD_viASqh5hj36CNDT0XCL9jYNWBeJKBB9TL2s0=s1024-rj\" target=\"_blank\" rel=\" noreferrer noopener\"><img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"436\" src=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1lezCqTSii_XOYF9W1cUsjA.png\" alt=\"\" class=\"wp-image-34896\" srcset=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1lezCqTSii_XOYF9W1cUsjA.png 800w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1lezCqTSii_XOYF9W1cUsjA-300x164.png 300w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1lezCqTSii_XOYF9W1cUsjA-768x419.png 768w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><\/a><\/figure>\n<\/div>\n\n\n<p>A continuaci\u00f3n, el siguiente esquema en formato mermaid, visualiza la ruta cr\u00edtica de una solicitud (prompt) desde que sale del cliente hasta que se resuelve, destacando los mecanismos de <strong>cach\u00e9 sem\u00e1ntico, seguridad y l\u00f3gica de fallback<\/strong>.<\/p>\n\n\n<pre class=\"wp-block-code\" aria-describedby=\"shcb-language-3\" data-shcb-language-name=\"JavaScript\" data-shcb-language-slug=\"javascript\"><span><code class=\"hljs language-javascript\">graph TD\n\n    Client&#91;Apps \/ Microservicios]\n\n    subgraph AIGateway &#91;Gateway de IA Multiservicio]\n        direction TB\n        Ingress&#91;Ingress &amp; Rate Limiting]\n        Security&#91;PII Masking &amp; Guardrails]\n        SemCache{Existe en Cache?}\n        Router{Smart Router}\n\n        subgraph Logic &#91;Logica de Resiliencia]\n            PrimaryCall&#91;Modelo Principal]\n            ErrorCheck{Fallo?}\n            FallbackCall&#91;Modelo Secundario]\n        end\n\n        Observability&#91;Logging &amp; Cost Tracking]\n    end\n\n    subgraph Providers &#91;Proveedores LLM]\n        ModelA&#91;OpenAI GPT<span class=\"hljs-number\">-4<\/span>]\n        ModelB&#91;Anthropic Claude <span class=\"hljs-number\">3.5<\/span>]\n        ModelC&#91;Azure \/ Bedrock Llama <span class=\"hljs-number\">3<\/span>]\n    end\n\n    Client --&gt; Ingress\n    Ingress --&gt; Security\n    Security --&gt;|Prompt Sanitizado| SemCache\n\n    SemCache --&gt;|Hit| Observability\n    SemCache --&gt;|Miss| Router\n\n    Router --&gt;|Compleja| PrimaryCall\n    Router --&gt;|Simple| ModelC\n\n    PrimaryCall --&gt; ModelA\n    ModelA --&gt;|<span class=\"hljs-built_in\">Error<\/span>| ErrorCheck\n    ModelA --&gt;|OK| Observability\n\n    ErrorCheck --&gt;|Si| FallbackCall\n    FallbackCall --&gt; ModelB\n    ModelB --&gt; Observability\n    ModelC --&gt; Observability\n\n    Observability --&gt;|Final| Client<\/code><\/span><small class=\"shcb-language\" id=\"shcb-language-3\"><span class=\"shcb-language__label\">Code language:<\/span> <span class=\"shcb-language__name\">JavaScript<\/span> <span class=\"shcb-language__paren\">(<\/span><span class=\"shcb-language__slug\">javascript<\/span><span class=\"shcb-language__paren\">)<\/span><\/small><\/pre>\n\n\n<p><strong><em>Explicaci\u00f3n del flujo:<\/em><\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Ingesta &amp; seguridad:<\/strong> la solicitud entra y primero se limpian los datos sensibles (PII).<\/li>\n\n\n\n<li><strong>Cach\u00e9 sem\u00e1ntico:<\/strong> si alguien ya hizo una pregunta similar, el Gateway devuelve la respuesta guardada inmediatamente (ahorrando tiempo y dinero).<\/li>\n\n\n\n<li><strong>Smart Router:<\/strong> si es una consulta nueva, decide a qu\u00e9 modelo ir bas\u00e1ndose en reglas (ej. complejidad).<\/li>\n\n\n\n<li><strong>Resiliencia (fallback):<\/strong> en el diagrama, si el <strong>Modelo A (GPT-4)<\/strong> falla, el sistema autom\u00e1ticamente desv\u00eda el tr\u00e1fico al <strong>Modelo B (Claude)<\/strong> sin que el usuario se entere.<\/li>\n<\/ul>\n\n\n\n<p>El <strong>Gateway de IA Multiservicio<\/strong> deja de tratar a los LLMs como una \u201cAPI m\u00e1gica\u201d y empieza a tratarlos como lo que son: <strong>un commodity intercambiable<\/strong>. Esta capa de abstracci\u00f3n es lo que diferencia a una prueba de concepto (PoC) de una plataforma de IA empresarial lista para producci\u00f3n.<\/p>\n\n\n\n<p>Implementar un <strong>Gateway de IA Generativa multiservicio<\/strong> permite <strong>escalar IA con control, reducir costos y mejorar resiliencia<\/strong>. Empieza con un proxy ligero (ruteo, cach\u00e9, m\u00e9tricas) y evoluciona hacia pol\u00edticas avanzadas, enriquecimiento de datos y observabilidad completa para operaciones maduras.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter\"><a class=\"alt=&quot;Gateway Multiservicio&quot;\" href=\"https:\/\/lh3.googleusercontent.com\/gg\/AIJ2gl93cUfx8Z_PwX76D_BaXQbYwPAglr4VkxqWT8j8tuyCP8HeJuJGrVghf8vMm2MLI5NLAwkzii9qbgusdkhfAxpUmdz_pN9XTzRCwiOrvBx6w-FQfK6x-SvEyWl4YMCx_9ONxdT58zf62al41GDmJ2jEhp_Evjd68FSCfKUExE_8yGtrEbFk7S3p3QebuPF3SNHuS8OIr4LucezgzH46HiFC5FOxYY8uFgXW-4U5IXnVRKYaa7R22fkLpA6gt1YIgPkty4Y3BpVmhtd-iCbPcR4rnBs1q01_1MFK-LB5McJRSDMGrkQ7_xEN7IFAcsZKyfcm2MhZHKQ38iA3IFhdZVv_=s1024-rj\" target=\"_blank\" rel=\" noreferrer noopener\"><img loading=\"lazy\" decoding=\"async\" width=\"800\" height=\"436\" src=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/149oXe5O9bkcpwytPnZirMw.png\" alt=\"\" class=\"wp-image-34895\" srcset=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/149oXe5O9bkcpwytPnZirMw.png 800w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/149oXe5O9bkcpwytPnZirMw-300x164.png 300w, https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/149oXe5O9bkcpwytPnZirMw-768x419.png 768w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\" \/><\/a><\/figure>\n<\/div>\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La arquitectura del Gateway Multiservicio de IA Generativa es clave para escalar aplicaciones con LLMs de forma segura y rentable. Ya no se trata solo de \u201cintegrar IA\u201d, sino de hacerlo de manera escalable, rentable y agn\u00f3stica al proveedor. La arquitectura de referencia del Generative AI Gateway centraliza acceso, gobernanza y observabilidad para m\u00faltiples proveedores&#8230; <a class=\"more-link\" href=\"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/\">Read more<\/a><\/p>\n","protected":false},"author":313,"featured_media":34893,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_editorskit_title_hidden":false,"_editorskit_reading_time":0,"_editorskit_is_block_options_detached":false,"_editorskit_block_options_position":"{}","_uag_custom_page_level_css":"","_genesis_hide_title":false,"_genesis_hide_breadcrumbs":false,"_genesis_hide_singular_image":false,"_genesis_hide_footer_widgets":false,"_genesis_custom_body_class":"","_genesis_custom_post_class":"","_genesis_layout":"","footnotes":""},"categories":[10610,10598],"tags":[10664],"collections":[12986],"class_list":{"0":"post-34691","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-aprendizaje-automatico","8":"category-inteligencia-artificial","9":"tag-ia","10":"collections-ai-es","11":"entry"},"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v26.9 (Yoast SEO v27.5) - https:\/\/yoast.com\/product\/yoast-seo-premium-wordpress\/ -->\n<title>Gateway Multiservicio IA: arquitectura escalable<\/title>\n<meta name=\"description\" content=\"Gateway Multiservicio de IA Generativa: reduce costos, evita vendor lock-in y optimiza el uso de LLMs en producci\u00f3n.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/\" \/>\n<meta property=\"og:locale\" content=\"en_US\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"La arquitectura del Gateway Multiservicio de IA Generativa\" \/>\n<meta property=\"og:description\" content=\"Gateway Multiservicio de IA Generativa: reduce costos, evita vendor lock-in y optimiza el uso de LLMs en producci\u00f3n.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/\" \/>\n<meta property=\"og:site_name\" content=\"Codemotion Magazine\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/Codemotion.Italy\/\" \/>\n<meta property=\"article:published_time\" content=\"2025-12-16T12:10:29+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2025-12-16T12:11:46+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png\" \/>\n\t<meta property=\"og:image:width\" content=\"800\" \/>\n\t<meta property=\"og:image:height\" content=\"436\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Orli Dun\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@CodemotionIT\" \/>\n<meta name=\"twitter:site\" content=\"@CodemotionIT\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Orli Dun\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"5 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/\"},\"author\":{\"name\":\"Orli Dun\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#\\\/schema\\\/person\\\/37ca255c359cc54110ac89eb4fa7db42\"},\"headline\":\"La arquitectura del Gateway Multiservicio de IA Generativa\",\"datePublished\":\"2025-12-16T12:10:29+00:00\",\"dateModified\":\"2025-12-16T12:11:46+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/\"},\"wordCount\":879,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2025\\\/11\\\/1SiMTcbWi4hOIuvMuxw1yAg.png\",\"keywords\":[\"IA\"],\"articleSection\":[\"Aprendizaje autom\u00e1tico\",\"Inteligencia Artificial\"],\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/\",\"url\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/\",\"name\":\"Gateway Multiservicio IA: arquitectura escalable\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2025\\\/11\\\/1SiMTcbWi4hOIuvMuxw1yAg.png\",\"datePublished\":\"2025-12-16T12:10:29+00:00\",\"dateModified\":\"2025-12-16T12:11:46+00:00\",\"description\":\"Gateway Multiservicio de IA Generativa: reduce costos, evita vendor lock-in y optimiza el uso de LLMs en producci\u00f3n.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#breadcrumb\"},\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#primaryimage\",\"url\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2025\\\/11\\\/1SiMTcbWi4hOIuvMuxw1yAg.png\",\"contentUrl\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2025\\\/11\\\/1SiMTcbWi4hOIuvMuxw1yAg.png\",\"width\":800,\"height\":436},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Inteligencia Artificial\",\"item\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/es\\\/inteligencia-artificial\\\/\"},{\"@type\":\"ListItem\",\"position\":3,\"name\":\"La arquitectura del Gateway Multiservicio de IA Generativa\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#website\",\"url\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/\",\"name\":\"Codemotion Magazine\",\"description\":\"We code the future. Together\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"en-US\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#organization\",\"name\":\"Codemotion\",\"url\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2019\\\/11\\\/codemotionlogo.png\",\"contentUrl\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2019\\\/11\\\/codemotionlogo.png\",\"width\":225,\"height\":225,\"caption\":\"Codemotion\"},\"image\":{\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/Codemotion.Italy\\\/\",\"https:\\\/\\\/x.com\\\/CodemotionIT\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/#\\\/schema\\\/person\\\/37ca255c359cc54110ac89eb4fa7db42\",\"name\":\"Orli Dun\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/alura-profile-100x100.png\",\"url\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/alura-profile-100x100.png\",\"contentUrl\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/alura-profile-100x100.png\",\"caption\":\"Orli Dun\"},\"description\":\"From finance to the digital revolution! Systems Engineer | Cloud &amp; AI | Tech Creator | Community Manager at Alura Latam #foramillionfriends\",\"sameAs\":[\"https:\\\/\\\/orlidun.vercel.app\\\/\",\"https:\\\/\\\/www.linkedin.com\\\/in\\\/orlibetdungonzalez\"],\"url\":\"https:\\\/\\\/www.codemotion.com\\\/magazine\\\/author\\\/orli-dun\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"Gateway Multiservicio IA: arquitectura escalable","description":"Gateway Multiservicio de IA Generativa: reduce costos, evita vendor lock-in y optimiza el uso de LLMs en producci\u00f3n.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/","og_locale":"en_US","og_type":"article","og_title":"La arquitectura del Gateway Multiservicio de IA Generativa","og_description":"Gateway Multiservicio de IA Generativa: reduce costos, evita vendor lock-in y optimiza el uso de LLMs en producci\u00f3n.","og_url":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/","og_site_name":"Codemotion Magazine","article_publisher":"https:\/\/www.facebook.com\/Codemotion.Italy\/","article_published_time":"2025-12-16T12:10:29+00:00","article_modified_time":"2025-12-16T12:11:46+00:00","og_image":[{"width":800,"height":436,"url":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png","type":"image\/png"}],"author":"Orli Dun","twitter_card":"summary_large_image","twitter_creator":"@CodemotionIT","twitter_site":"@CodemotionIT","twitter_misc":{"Written by":"Orli Dun","Est. reading time":"5 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#article","isPartOf":{"@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/"},"author":{"name":"Orli Dun","@id":"https:\/\/www.codemotion.com\/magazine\/#\/schema\/person\/37ca255c359cc54110ac89eb4fa7db42"},"headline":"La arquitectura del Gateway Multiservicio de IA Generativa","datePublished":"2025-12-16T12:10:29+00:00","dateModified":"2025-12-16T12:11:46+00:00","mainEntityOfPage":{"@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/"},"wordCount":879,"commentCount":0,"publisher":{"@id":"https:\/\/www.codemotion.com\/magazine\/#organization"},"image":{"@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#primaryimage"},"thumbnailUrl":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png","keywords":["IA"],"articleSection":["Aprendizaje autom\u00e1tico","Inteligencia Artificial"],"inLanguage":"en-US","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/","url":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/","name":"Gateway Multiservicio IA: arquitectura escalable","isPartOf":{"@id":"https:\/\/www.codemotion.com\/magazine\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#primaryimage"},"image":{"@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#primaryimage"},"thumbnailUrl":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png","datePublished":"2025-12-16T12:10:29+00:00","dateModified":"2025-12-16T12:11:46+00:00","description":"Gateway Multiservicio de IA Generativa: reduce costos, evita vendor lock-in y optimiza el uso de LLMs en producci\u00f3n.","breadcrumb":{"@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#breadcrumb"},"inLanguage":"en-US","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/"]}]},{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#primaryimage","url":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png","contentUrl":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png","width":800,"height":436},{"@type":"BreadcrumbList","@id":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/la-arquitectura-del-gateway-multiservicio-de-ia-generativa\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.codemotion.com\/magazine\/"},{"@type":"ListItem","position":2,"name":"Inteligencia Artificial","item":"https:\/\/www.codemotion.com\/magazine\/es\/inteligencia-artificial\/"},{"@type":"ListItem","position":3,"name":"La arquitectura del Gateway Multiservicio de IA Generativa"}]},{"@type":"WebSite","@id":"https:\/\/www.codemotion.com\/magazine\/#website","url":"https:\/\/www.codemotion.com\/magazine\/","name":"Codemotion Magazine","description":"We code the future. Together","publisher":{"@id":"https:\/\/www.codemotion.com\/magazine\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.codemotion.com\/magazine\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"en-US"},{"@type":"Organization","@id":"https:\/\/www.codemotion.com\/magazine\/#organization","name":"Codemotion","url":"https:\/\/www.codemotion.com\/magazine\/","logo":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/www.codemotion.com\/magazine\/#\/schema\/logo\/image\/","url":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2019\/11\/codemotionlogo.png","contentUrl":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2019\/11\/codemotionlogo.png","width":225,"height":225,"caption":"Codemotion"},"image":{"@id":"https:\/\/www.codemotion.com\/magazine\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/Codemotion.Italy\/","https:\/\/x.com\/CodemotionIT"]},{"@type":"Person","@id":"https:\/\/www.codemotion.com\/magazine\/#\/schema\/person\/37ca255c359cc54110ac89eb4fa7db42","name":"Orli Dun","image":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2026\/04\/alura-profile-100x100.png","url":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2026\/04\/alura-profile-100x100.png","contentUrl":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2026\/04\/alura-profile-100x100.png","caption":"Orli Dun"},"description":"From finance to the digital revolution! Systems Engineer | Cloud &amp; AI | Tech Creator | Community Manager at Alura Latam #foramillionfriends","sameAs":["https:\/\/orlidun.vercel.app\/","https:\/\/www.linkedin.com\/in\/orlibetdungonzalez"],"url":"https:\/\/www.codemotion.com\/magazine\/author\/orli-dun\/"}]}},"featured_image_src":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-600x400.png","featured_image_src_square":"https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-600x436.png","author_info":{"display_name":"Orli Dun","author_link":"https:\/\/www.codemotion.com\/magazine\/author\/orli-dun\/"},"uagb_featured_image_src":{"full":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png",800,436,false],"thumbnail":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-150x150.png",150,150,true],"medium":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-300x164.png",300,164,true],"medium_large":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-768x419.png",768,419,true],"large":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png",800,436,false],"1536x1536":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png",800,436,false],"2048x2048":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png",800,436,false],"small-home-featured":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-100x100.png",100,100,true],"sidebar-featured":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-180x128.png",180,128,true],"genesis-singular-images":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg.png",800,436,false],"archive-featured":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-400x225.png",400,225,true],"gb-block-post-grid-landscape":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-600x400.png",600,400,true],"gb-block-post-grid-square":["https:\/\/www.codemotion.com\/magazine\/wp-content\/uploads\/2025\/11\/1SiMTcbWi4hOIuvMuxw1yAg-600x436.png",600,436,true]},"uagb_author_info":{"display_name":"Orli Dun","author_link":"https:\/\/www.codemotion.com\/magazine\/author\/orli-dun\/"},"uagb_comment_info":0,"uagb_excerpt":"La arquitectura del Gateway Multiservicio de IA Generativa es clave para escalar aplicaciones con LLMs de forma segura y rentable. Ya no se trata solo de \u201cintegrar IA\u201d, sino de hacerlo de manera escalable, rentable y agn\u00f3stica al proveedor. La arquitectura de referencia del Generative AI Gateway centraliza acceso, gobernanza y observabilidad para m\u00faltiples proveedores&#8230;&hellip;","lang":"es","_links":{"self":[{"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/posts\/34691","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/users\/313"}],"replies":[{"embeddable":true,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/comments?post=34691"}],"version-history":[{"count":3,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/posts\/34691\/revisions"}],"predecessor-version":[{"id":34898,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/posts\/34691\/revisions\/34898"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/media\/34893"}],"wp:attachment":[{"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/media?parent=34691"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/categories?post=34691"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/tags?post=34691"},{"taxonomy":"collections","embeddable":true,"href":"https:\/\/www.codemotion.com\/magazine\/wp-json\/wp\/v2\/collections?post=34691"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}