Bases de datos Distribuidas: febrero 2015

viernes, 20 de febrero de 2015

Actividad #8

Características de las BDD en los gestores de BD cliente/servidor

Combinacion de un cliente que interactua con el usuario, y un servidor que interactua con los recursos compartidos. El proceso de cliente proporciona la interfaz entre el usuario y el resto del sistema. El proceso del servidor actua como un motor de software que maneja recursos compartidos tales como bases de datos, impresoras modems,etc..

La tarea del cliente y del servidor tienen diferentes requerimientos en cuanto a recursos de computo como velocidad del procesador, memoria, velocidad y capacidad del disco input-output devices.

Se establece una relacion entre procesos distintos, los cuales puedn ser ejecutados en la misma maquina o en maquinas diferentes distribuidas a lo largo de la red.

Existe una clara distincion de funciones basadas en el concepto de "Servicio", que se establece entre cliente y servidores.

La relacion establecida pueden ser muchos a uno, en la que un servidor puede dar servicio a muchos clientes, regulando su acceso a recursos compartidos.

Los clientes corresponden a procesos activos en cuanto a que son estos los que hacen peticiones de servicios a los servidores. Estos ultimos tienen un caracter pasivo ya que esperan las peticiones de los clientes.

No existe otra relacion entre cliente y servidor que no sea la que se establece a traves del intercambio de mensajes entre ambos. El mensaje es el mecanismo para la peticion y entrega de solicitudes de servicio.

El ambiente es heterogeneo. La plataforma de hardware y el sistema operativo del cliente y del servidor no son siempre la misma. Precisamente una de las principales ventaas de esta arquitectura es la posibilidad de conectar clientes y servidores independentemente de sus plataformas.

El concepto de escabilidad tanto horizontal como vertical es aplicable a cualquier sistema Cliente/Servidor. La escabilidad horizontal permite agregar mas estaciones de trabajo activas sin afectar significativamente el rendimiento. la escabilidad vertical permite mejorar las caracteristicas del servidor o permite multiples servidores.

Características de las BDD en lossistemas de archivos convencionales

Un archivo es un elemento de información conformado por un conjunto de registros. Estos registros a su vez están compuestos por una serie de caracteres o bytes. Los archivos, alojados en dispositivosde almacenamiento conocidos como memoria secundaria, pueden almacenarse de dos formas diferentes: archivos convencionales o bases de datos.

Los archivos convencionales, pueden organizarse comoarchivos secuenciales o archivos directosLos sistemas de archivos están diseñados para hacer la vida más fácil y ayudarle a navegar por la enorme cantidad de datos almacenados en sus computadoras , teléfonos celulares, unidades USB y otros dispositivos. Trabajo principal del sistema de archivos es organizar los datos ( archivos, programas multimedia) que almacena lo que se puede recuperar fácilmente .

Diferencias con Archivos

El Archivo por sí mismo no constituye una Base de Datos, sino más bien la forma en que está organizada la información es la que da origen a la Base de Datos.

Las Bases de Datos manuales, pueden ser difíciles de gestionar y modificar.

Por ejemplo: En una guía de teléfonos no es posible encontrar el número de un individuo si no sabemos su apellido, aunque conozcamos su domicilio.

Del mismo modo, en un Archivo de pacientes en el que la información esté desordenada por el nombre de los mismos, será una tarea bastante engorrosa encontrar todos los pacientes que viven en una zona determinada.

•Poder acceder a sitios remotos.

•Transmitir consultas y datos a través de redes de telecomunicaciones.

•Rastrear la pista de distribución y replicación de los datos.

•Capacidad de elaborar estrategias de ejecución.

•Control de concurrencia.

•Mantener la consistencia de las copias de un elemento de información.

•Capacidad de decidir qué versión de la copia de un elemento de información es la que

tiene que ser accedida en un momento determinado.

•Recuperación ante caídas.

•Control de la seguridad para mantener privilegios de acceso a los datos distribuidos.

•Componente de manejo de la base de datos.

•Componente de comunicación de datos.

•Diccionario de datos

•Componente de base de datos distribuida.

http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/marquez_a_bm/capitulo5.pdf
http://es.slideshare.net/spgutierrez86/semana1-10144829
http://www.buenastareas.com/ensayos/Archivo-Convencional/3864528.html

jueves, 19 de febrero de 2015

Video

La Factoría de la información corporativa

Data Warehouse (DW)

En el centro tenemos Almacén de datos únicos en el que están concentrados los datos que están concentrados que están repartidos en múltiples fuentes de datos externos o internos de la organización que son heterogenias, esas fuentes de datos tienen que ser transformadas de forma que pueden ser almacenadas y consultadas posteriormente con el fin de poder tomar sus decisiones a nivel estratégico.

Sistema operacional

Accedes muchísimos usuarios y pocos datos

Sistema DW

Accedes pocos usuarios y muchísimos datos

En sistema DW se denomina factoría de la información corporativa interactúan para que a partir de fuentes internas y externas puedan tener conocimiento para que puedan tomarse decisiones.

Tipos de usuarios:

Granjero

Accede a información de forma predecible y repetitiva solo accede a su parcela de información al extraer datos para mejorar el funcionamiento de la empresa utilizando herramientas OLAP.

Explorador:

Explora una gran cantidad de datos accede a información de forma impredecible e irregular no sabe lo que quiere hasta que lo encuentra su objetivo será obtener información que proporcione ventajas competitivas.

Turista:

Grupos de dos o más personas por lo menos que tienes distintas visiones de la empresa con un perfil con conocimientos del negocio y visión global de la empresa según su perfil con conocimientos informáticos, Utiliza metadatos.

¿Que es un Data Warehouse (DW)?

Es una colección de datos orientados al tema, integrados, no-volátiles e historiados, organizados para dar soporte a los procesos de ayuda a la decisión.

Orientado al tema

La información se clasifica en función de los aspectos que son de interés para la organización. En contraste con la orientación al proceso de los sistemas tradicionales.

Datos Integrados

Sistemas operacionales heterogenias, modelos de datos diferentes con diferentes visiones del negocio como lo son finanzas, ventanas, gestión personal

Datos históricos

El tiempo es implícito en los almacenes de datos, los datos temporales permitirán hacer estudios sobre la evolución del negocio.

Datos no-volátiles

El data warehouse es creado para ser leídos pero no modificados. La información es permanente. Los datos más recientes no sustituyen a los precedentes.

¿Cuál es el objetivo de un data warehouse?

Almacenar la información necesaria para descubrir nuevas oportunidades que permitan mejorar el negocio, ayudar en la toma de decisiones, segmentar los datos de negocio, gestionar el conocimiento de la empresa, depurar los datos.

Factoría de la información corporativa

Almacena datos departamentales, información parcial del negocio solo con los datos que interesan a un departamento o un conjunto de personas.

Metadanos en la Factorias de Informacion Corporativa

Los metadanos son datos sobre datos

Los metadanos describen caracteriscticas de otros datos, facilitan su administracion y uso.

Descripcion de las fuentes de datos:

Estructuras utilizadas para almacenar datos
Numeros de registros almacenados
Forma de almacenamiento
Condiciones bajo las que se producen los datos
Origen de los datos

Descripcion de los datos:

Estructuras utilizadas para almacenar datos
Numeros de registros almacenados
Forma de almacenamiento
Condiciones bajo las que se producen los datos
Origen de los datos
Frecuencia de actualizacion
Estadisticas de uso
Informacion de seguridad

Los metadatos son utiles para:

El equipo de desarrollo de la FIC
Los tecnicos que mantienen el sistema
Los usuarios finales
En una FIC los usuarios finals no solo requieren informacion sobre los datos, sino tambien sobre los metadatos.

Tipos de metadatos:

De Construccion

Estrcutura de las fuentes de datos, rn los almacenes de datos, transformaciones, planificacion, sematica,etc..

De Gestion

Usuarios permitidos y accesos, accesos realizados, resultados de las extracciones y transformaciones etc..

De Uso

Seleccion de metadatos de construccion y gestion.

Diseño multidimensional

Necesidades de los analistas

El sistema decisional no debe ayudar a vender, comprar, producir o transportar, sino a evaluar, comparar, presupuestar, planificar, proyectar, etc..

La hojas de calculo son la solucion

Excel es una de las erramientas de reporting y analisis de datos mas utilizados en BI
Modelo tridimensional: hoja por fila por columna
Muy util para analisis de tipo wath if
No son apropiadas para grandes cantidades de datos
No aportan semantica a los datos
La creacion de informes es compleja
No facilita las gerarquias de agregacion

Ncesecitamos un sistema hibrido que proporcione flexibilidad y potente de calculo y la facilidad de consulta de las bases de datos. Para eso necesitamos la herramienta OLAP

Caraacteristicas de OLAP

Herramienta con la capacidad de procesar conultar en linea con el objetivo de analizar datos que cumplan con las propiedades FASMI
Multidimensionales: que los usuarios no dependen del departamento de informatica, se pueden formular nuevas preguntas de forma dinamica, presentacion de los datos de manera que los analistas estan acostumbrados a verlos.

https://vimeo.com/107707101
https://vimeo.com/111025142
https://vimeo.com/111844395

lunes, 9 de febrero de 2015

Actividad # 7

Arquitectura de bases de datos distribuidas

El procesamiento de la bases de datos distribuida, es el procesamiento por el medio del cual la ejecucion de las transaciones, la recuperación y actualización de los datos se llevan a cabo entre dos o mas computadoras independientes.
En esta arquitectura el sistema administrador de bases de datos distribuidas, estan formados por los administradores de transaciones y los administradores de bases de datos de todas las computadoras.

Son la que almacenan datos que pertenecen lógicamente a un sólo sistema, pero se encuentra físicamente esparcido en varios “sitios” de la red. Un sistema de base de datos distribuidos se compone de un conjunto de sitios, conectados entre sí mediante algún tipo de red de comunicaciones, en el cual:

• Cada sitio es un sistema de base de datos en sí mismo.

• Los sitios trabajan en conjunto si es necesario con el fin de que un usuario de cualquier sitio pueda obtener acceso a los datos de cualquier punto de la red tal como si todos los datos estuvieran almacenados en el sitio propio del usuario.
La mayoria de los sistemas de manejo de bases de datos disponibles actualmente están bassdas en la arquitectura ANSI-SPARC la cualdivide a un sistema en tres niveles: Interno, Conceptual, Externo.

Donde se Utilizan

Cualquier organización que tiene una estructura descentralizada. El enfoque distribuido de las bases de datos se adapta más naturalmente a la estructura de las organizaciones. Además, la necesidad de desarrollar una aplicación global (que incluya a toda la organización), se resuelve fácilmente con bases de datos distribuidas. Si una organización crece por medio de la creación de unidades o departamentos nuevos, entonces, el enfoque de bases de datos distribuidas permite un crecimiento suave.

Los datos se pueden colocar físicamente en el lugar donde se accede más frecuentemente, haciendo que los usuarios tengan control local de los datos con los que interactúan. Los casos más típicos son organismos gubernamentales y/o de servicio público.

La industria de la manufactura, particularmente, aquella con plantas múltiples. Por ejemplo, la industria automotriz.

Aplicaciones de control y comando militar.
Líneas de transporte aéreo.
Cadenas hoteleras.
Servicios bancarios y financieros.
Implementaciones comerciales

Ventajas y Desventajas

Ventajas

La primera ventaja es la modularidad, los sistemas distribuidos pueden variar su tamaño de un modo más sencillo. Se pueden agregar computadoras adicionales a la red conforme aumentan el número de usuarios y su carga de procesamiento. Después, si la carga de trabajo se reduce, el tamaño de la red también puede reducirse.

A menudo es más fácil y más económico agregar una nueva computadora más pequeña que actualizar una computadora única y centralizada que sea más poderosa.

La sencillez, los sistemas distribuidos se pueden adecuar de una manera más sencilla a las estructuras de la organización de los usuarios.

La autonomía local de los datos. Los datos se pueden colocar físicamente en el lugar donde se accede a ellos más frecuentemente, haciendo que los usuarios tengan control local de los datos con los que actúan (un departamento puede controlar los datos que le pertenecen) permitiendo a los usuarios aplicar políticas locales respecto del tipo de accesos a sus datos.

La disponibilidad. Si se produce un fallo en una localidad de un sistema distribuido, es posible que las demás localidades puedan seguir trabajando. En particular, si los datos se repiten en varias localidades, una transacción que requiere un dato específico puede encontrarlo en más de una localidad. Así, el fallo de una localidad no implica necesariamente la desactivación del sistema. La disponibilidad es fundamental para los sistemas de bases de datos que se utilizan en aplicaciones de tiempo real.

Puede dar como resultado un mejor rendimiento que el que se obtiene por un procesamiento centralizado. Los datos generalmente se ubican cerca del sitio con mayor demanda, también los sistemas trabajan en paralelo, lo cual permite balancear la carga en los servidores. Varias computadoras operando en forma simultánea pueden entregar más volumen de procesamiento que una sola computadora.

Los datos duplicados aumentan su confiabilidad. Cuando falla una computadora, se pueden obtener los datos extraídos de otras computadoras. Los usuarios no dependen de la disponibilidad de una sola fuente para sus datos.

El acceso a los datos es más rápido debido a que los datos se localizan más cercanos al lugar donde se utilizan.

El procesamiento es rápido debido a que varios nodos intervienen en el procesamiento de una carga de trabajo.

Nuevos nodos se pueden agregar fácil y rápidamente.

La probabilidad de que una falla en un solo nodo afecte al sistema es baja y existe una autonomía e independencia entre los nodos.

Control local de los datos con que se interactúa.

Mayor tolerancia a los fallos

Desventajas

La primera desventaja es el rendimiento, puede ser peor para el procesamiento distribuido que para el procesamiento centralizado. Depende de la naturaleza de la carga de trabajo, la red, el DDBMS y las estrategias utilizadas de concurrencia y de falla, así como las ventajas del acceso local a los datos y de los procesadores múltiples, ya que éstos pueden ser abrumados por las tareas de coordinación y de control requeridas. Tal situación es probable cuando la carga de trabajo necesita un gran número de actualizaciones concurrentes sobre datos duplicados, y que deben estar muy distribuidos.

La confiabilidad. El procesamiento de base de datos distribuida puede resultar menos confiable que el procesamiento centralizado y un sistema distribuido puede estar menos disponible que uno centralizado. Esto dependerá de los parámetros mencionados en el apartado anterior.

Una desventaja es su mayor complejidad, a menudo se traduce en altos gastos de construcción y mantenimiento. Ya que existen más componentes de hardware, hay más cantidad de cosas por aprender y más interfaces susceptibles de fallar. Se debe asegurar que la base de datos sea transparente, se debe lidiar con varios sistemas diferentes que pueden presentar dificultades únicas.

El coste. El control de concurrencia y recuperación de fallos puede convertirse en algo complicado y difícil de implementar, puede empujar a una mayor carga sobre programadores y personal de operaciones y quizá se requiera de personal más experimentado y más costoso.

El procesamiento de bases de datos distribuido es difícil de controlar. Una computadora centralizada reside en un entorno controlado, con personal de operaciones que supervisa muy de cerca, y las actividades de procesamiento pueden ser vigiladas, aunque a veces con dificultad. En un sistema distribuido, las computadoras de proceso, residen muchas veces en las áreas de trabajo de los usuarios. En ocasiones el acceso físico no está controlado, y los procedimientos operativos son demasiado suaves y efectuados por personas que tienen escasa apreciación o comprensión sobre su importancia. En sistemas centralizados, en caso de un desastre o catástrofe, la recuperación puede ser más difícil de sincronizar.

En sexto lugar tenemos la seguridad. Dado que los datos residen en muchos nodos diferentes y se pueden consultar por nodos diversos de la red, la probabilidad de violaciones de seguridad es creciente si no se toman las precauciones debidas.

La siguiente es la integridad (consistencia, validez y exactitud de la información). Se vuelve difícil mantener la integridad, aplicar las reglas de integridad a través de la red puede ser muy caro en términos de transmisión de datos.

Finalmente se puede mencionar la carencia de estándares. Aún no existen herramientas o metodologías que ayuden a los usuarios a convertir un DBMS centralizado en un DBMS distribuido.

Es más complicado el control y la manipulación de los datos

Es compleja el aseguramiento de la integridad de la información en presencia de fallas no predecibles tanto de componentes de hardware como de software. La integridad se refiere a la consistencia, validez y exactitud de la información.

El control de concurrencia y los mecanismos de recuperación son mucho más complejos que en un sistema centralizado dado que los datos pueden estar replicados.

Referencias:
http://es.scribd.com/doc/82807834/1-4-Arquitectura-de-Base-de-Datos-Distribuidas-Copia#scribd
http://es.slideshare.net/Deyzzi/unidad1-bases-de-datos-distribuidas
http://repositorio.utn.edu.ec/bitstream/123456789/522/6/04%20ISC%20151%20CAPITULO%20IV.pdf

viernes, 6 de febrero de 2015

Actividades # 6

Uso de las BDD en diversos sectores productivos

Para cualquier organizacion que este operando con multiple cantidad de datos de informacion es indispensable tener el control apropiado, mediante una base de datos para que su control sea conrrecto y sin errores.

Un sector de dependencia gubernamentales y/o de servicio público genera una gran cantidad de datos de servicios que presta como ejemplo seria una dependencia de cualquier tipo que realiza un cobro mensual, tiene que realizar el control de todas las personas que se encuentran en la ciudad, claramente para saber quien cumple con el pago y quien no, para realizar el corte de cualquier servicio o simplemente para saber donde se ubica esa persona.

Tanto es importante para un servicio publico como lo es para una linea de transporte aérea, una cadena hotelera. Por que manejan gran candidad de datos de distintas personas, nacionalidades, edad, sexo y con estos datos podrian tener una alza en sus ventas. Al tener un correo de cada persona pueden ofertar sus servicios o simplemente creando una pagina web publicitaria y enviar a cada cliente.

El caso mas importante para una base de datos es el de un banco, no puede tener ni el mas minimo error por que un dato que tenga un mal uso puede tener grandes consecuencias como llevar a la ruina.

para cualquier empresa que maneje una gran cantidad de datos es indispensable tener una base de datos optima para cada campo, por lo cual es indispensable realizar un estudio para las necesidades de cada base de datos.

Los ambientes en los que se encuentra con mayor frecuencia el uso de las bases de datos distribuidas son:

Cualquier organización que tiene una estructura descentralizada.

Casos típicos de lo anterior son: organismos gubernamentales y/o de servicio público.

La industria de la manufactura, particularmente, aquella con plantas múltiples. Por ejemplo, la industria automotriz.

Aplicaciones de control y comando militar.

Líneas de transportación aérea.

Cadenas hoteleras.

Servicios bancarios y financieros.

En los sectores en que son mas utilizadas las BDD son:

Bancos
Escuelas
Ajencia de viajes
Hopitales
En los ejercitos Hoteles
Empresas
Precisamente en el sector productivo y gubernamental de los distintos países.

Para cualquier organización que está operando en el sector productivo de un país, es indispensable contar con medios para el control de la información, ya que de ello depende en gran medida que se lleguen a tomar decisiones en momentos de crisis económica o problemas legales.
El impacto de las bases de datos tanto en el sector privado como gubernamental, ha sido tan grande que prácticamente todas las empresas desde las PyMES hasta las multinacionales (de gobierno o privadas) hacen uso de las bases de datos.

Transparencia

La transparencia oculta al usuario la parte del cómo están organizadas las bases de datos distribuidas en los diferentes nodos físicos en las que se encuentran, esto hace que el usuario vea a la base de datos distribuida como si fuera una sola base de datos.

La transparencia se define como la separacion de la sematica de alto nivel de un sistema de los aspectos de bajo nivel relacionados a la implementacion del mismo.

Dentro de los principales niveles de trasparencia tenemos:

Transparencia de Sistemas de gestión de base de datos SGBD
Transparencia de transacción
Transparencia de concurrencia
Transparencia respecto a fallos
Transparencia de Sistemas de gestión de base de datos SGBD

No es necesario para el usuario saber los nombres de los fragmentos menos la ubicación de estos, como se hace la replicación los nombres en cada uno de los nodos.
1. Transparencia de fragmentación. El usuario no sabe cómo están fragmentadas las tabla en las base de datos. El usuario no necesita especificar el nombre de los fragmentos de las tablas.
2. Transparencia de la ubicación. Puede darse el caso de que el usuario conozca cómo se encuentran fragmentadas las tablas, pero no conoce y no es necesario que sepa la ubicación de etas.
3. Transparencia de la replicación. El usuario no sabe que nodos que contienen los fragmentos son replicados, tampoco es necesario que lo sepa para poner en funcionamiento una aplicación.
4. Transparencia de denominación. Cada elemento de la base de datos distribuida debe tener un nombre igual en cada uno de los nodos en que se encuentra distribuida, eso hace que el usuario manipule los elementos como si estudiaran centralizados en una sola base de datos.
Transparencia de concurrencia
1. Los sistemas de gestión de base de datos distribuidas brindan transparencia de concurrencia si es que las transacciones independientes son lógicas y tienen similitud con que se puedan hacer al mismo tiempo, es decir los resultados serían los mismos se hiciere de una sola vez. Esto sucede con la replicación, por ejemplo, dado que este proceso es asíncrono.
Transparencia de transacción
1. Se garantiza que todas las transacciones mantengan la integridad y coherencia de datos de la base de datos distribuida, es decir en todos sus nodos y fragmentos. Por ejemplo se puede utilizar todos los fragmentos de una tabla – estos fragmentos pueden estar físicamente en diferentes ubicaciones – de una sola vez.
2. Una transacción internamente está dividida en sub transacciones para ocupar cada uno de los nodos que contenga los datos que se requiere, esto no es visible para el usuario. Este, simplemente envía una sola transacción.
Transparencia respecto a fallos
1. Garantizar la atomicidad de la transacción, es decir mostrar los resultados si es que todas las sub transacciones no tuvieron error, o parar todo el proceso y algún subproceso tuvo error. Por lo tanto SGBDD debe sincronizar todas las sub transacciones mediante la transacción global
  
  Fragmentación
  
  Tipos de fragmentación:
  
  Dado que una relación se corresponde esencialmente con una tabla y la cuestión consiste en dividirla en fragmentos menores, inmediatamente surgen dos alternativas lógicas para llevar a cabo el proceso: la división horizontal y la división vertical.
  El problema de fragmentación se refiere al particionamiento de la información para distribuir cada parte a los diferentes sitios de la red.
  
  Objetivos de la fragmentación
  El objetivo de la fragmentación consiste en dividir la relación en un conjunto de relaciones más pequeñas tal que algunas de las aplicaciones de usuario sólo hagan uso de un fragmento.
  Sobre este marco, una fragmentación óptima es aquella que produce un esquema de división que minimiza el tiempo de ejecución de las aplicaciones que emplean esos fragmentos.
  La unidad de fragmentación ideal no es la tabla sino una subdivisión de ésta.
  
  Esto es debido a:
  - Las aplicaciones usan vistas definidas sobre varias relaciones, es decir, se forman a partir de "trozos" de varias tablas. Si conseguimos que cada una de las vistas esté definida sobre subtablas locales (o en su defecto lo mas "cerca" posible) a cada aplicación, es de esperar un incremento en el rendimiento.
  - Si múltiples vistas de diferentes aplicaciones están definidas sobre una tabla no fragmentada, se tiene :
  - Si la tabla no está replicada entonces se produce generación de tráfico por accesos remotos.
  - Si la tabla está replicada en todos o algunos de los sitios donde residen cada una de las aplicaciones entonces la generación de trafico innecesario es producida por la necesidad de la actualización de las copias.
  Ventajas
  Al descomponer una relación en fragmentos (unidades de distribución) :
  - Permitimos el procesamiento concurrente de transacciones ya que no se bloquean tablas enteras sino subtablas, por lo que dos consultas pueden acceder a la misma tabla a fragmentos distintos.
  - Permitimos la paralelización de consultas al poder descomponerlas en subconsultas, cada una de la cuales trabajará con un fragmento diferente incrementándose así el rendimiento.
  Desventajas
  - Degradación del rendimiento en vistas definidas sobre varios fragmentos ubicados en sitios distintos (es necesario realizar operaciones con esos trozos lo cual es costoso)
  - El control semántico se dificulta y el rendimiento se degrada debido que la verificación de restricciones de integridad (claves ajenas, uniques, etc) implican buscar fragmentos en múltiples localizaciones.
  Por lo tanto división y ubicación de los fragmentos no es trivial.
  Grado de Fragmentación
  
  Cuando se va a fragmentar una base de datos deberíamos sopesar qué grado de fragmentación va a alcanzar, ya que éste será un factor que influirá notablemente en el desarrollo de la ejecución de las consultas. El grado de fragmentación puede variar desde una ausencia de la división, considerando a las relaciones unidades de fragmentación; o bien, fragmentar a un grado en el cada tupla o atributo forme un fragmento. Ante estos dos casos extremos, evidentemente se ha de buscar un compromiso intermedio, el cual debería establecerse sobre las características de las aplicaciones que hacen uso de la base de datos. Dichas características se podrán formalizar en una serie de parámetros. De acuerdo con sus valores, se podrá establecer el grado de fragmentación del banco de datos.
  
  Reglas de corrección de la fragmentación
  
  A continuación se enuncian las tres reglas que se han de cumplir durante el proceso de fragmentación, las cuales asegurarán la ausencia de cambios semánticos en la base de datos durante el proceso.
  
  Reconstrucción. Si una relación R se descompone en una serie de fragmentos R1, R2, ..., Rn, puede definirse una operador relacional tal que el operador será diferente dependiendo de las diferentes formas de fragmentación. La reconstrucción de la relación a partir de sus fragmentos asegura la preservación de las restricciones definidas sobre los datos en forma de dependencias.
  
  Disyunción. Si una relación R se descompone horizontalmente en una serie de fragmentos R1, R2, ..., Rn, y un elemento de datos di se encuentra en algún fragmento Rj, entonces no se encuentra en otro fragmento Rk (k j). Esta regla asegura que los fragmentos horizontales sean disjuntos. Si una relación R se descompone verticalmente, sus atributos primarios clave normalmente se repiten en todos sus fragmentos.
  
  Fragmentación Horizontal:
  
  Como se ha explicada anteriormente, la fragmentación horizontal se realiza sobre las tuplas de la relación. Cada fragmento será un subconjunto de las tuplas de la relación. Existen dos variantes de la fragmentación horizontal: la primaria y la derivada. La fragmentación horizontal primaria de una relación se desarrolla empleando los predicados definidos en esa relación. Por el contrario, la fragmentación horizontal derivada consiste en dividir una relación partiendo de los predicados definidos sobre alguna otra.
  
  Fragmentación Vertical:
  
  El objetivo de la fragmentación vertical consiste en dividir la relación en un conjunto de relaciones más pequeñas tal que algunas de las aplicaciones de usuario sólo hagan uso de un fragmento. Sobre este marco, una fragmentación óptima es aquella que produce un esquema de división que minimiza el tiempo de ejecución de las aplicaciones que emplean esos fragmentos.
  
  Fragmentación mixta o híbrida:
  
  En muchos casos la fragmentación vertical u horizontal del esquema de la base de datos no será suficiente para satisfacer los requisitos de las aplicaciones. Como ya se citó al comienzo de este documento podemos combinar ambas, utilizando por ello la denominada fragmentación mixta. Cuando al proceso de fragmentación vertical le sigue una horizontal, es decir, se fragmentan horizontalmente los fragmentos verticales resultantes, se habla de la fragmentación mixta HV

Fuentes de Investigacion

http://delaoarrieta.blogspot.mx/2012/09/uso-de-las-bdd-en-diversos-sectores.html
http://amazonasopina.blogspot.mx/2012/09/la-transparencia-en-las-bases-de-datos.html
https://iessanvicente.com/colaboraciones/BBDDdistribuidas.pdf
http://www.monografias.com/trabajos82/base-datos-distribuidas/base-datos-distribuidas2.shtml#ixzz3R0zHAjCF
http://www.monografias.com/trabajos82/base-datos-distribuidas/base-datos-distribuidas2.shtml

http://www.scribd.com/doc/26894720/Base-de-datos-Distribuidas

https://www.tamps.cinvestav.mx/~vjsosa/clases/sd/sistemas_distribuidos_panorama.pdf

http://html.rincondelvago.com/bases-de-datos-distribuidas_1.html