Artículos

17.2: Estructuras de datos bipartitas - Matemáticas


La forma más común de almacenar datos de 2 modos es una matriz de datos rectangular de actores (filas) por eventos (columnas). La figura 17.1 muestra una parte del valioso conjunto de datos que usaremos aquí (Datos> Pantalla).

Figura 17.1: Matriz de datos rectangulares de datos de donaciones políticas de California

La Asociación de Maestros de California, por ejemplo, hizo donaciones en oposición a las iniciativas de la séptima, novena y décima votación, y una donación en apoyo de la octava.

Un enfoque muy común y muy útil para los datos de dos modos es convertirlos en dos conjuntos de datos de un modo y examinar las relaciones dentro de cada modo por separado. Por ejemplo, podríamos crear un conjunto de datos de vínculos actor por actor, midiendo la fuerza del vínculo entre cada par de actores por la cantidad de veces que contribuyeron en el mismo lado de las iniciativas, sumadas en las 40 iniciativas. También podríamos crear un conjunto de datos de un solo modo de vínculos iniciativa por iniciativa, codificando la fuerza de la relación como el número de donantes que cada par de iniciativas tiene en común. La Datos> Afiliaciones La herramienta se puede utilizar para crear conjuntos de datos de un modo a partir de una matriz de datos rectangular de dos modos. La figura 17.2 muestra un cuadro de diálogo típico.

Figura 17.2: Diálogo de datos> Afiliaciones para crear relaciones actor por actor de los donantes de California

Aquí hay varias opciones.

Hemos seleccionado el fila modo (actores) para este ejemplo. Para crear un conjunto de datos de un solo modo iniciativa por iniciativa, habríamos seleccionado columna.

Hay dos métodos alternativos:

La método de productos cruzados toma cada entrada de la fila para el actor A, y la multiplica por la misma entrada para el actor B, y luego suma el resultado. Por lo general, este método se utiliza para datos binarios porque el resultado es un recuento de co-ocurrencia. Con datos binarios, cada producto es 1 solo si ambos actores estuvieron "presentes" en el evento, y la suma de los eventos arroja el número de eventos en común, una medida valiosa de fuerza.

Nuestro ejemplo es un poco más complicado porque hemos aplicado el método de productos cruzados a datos valorados. Aquí, si ninguno de los actores donó a una iniciativa (0 * 0 = 0), o si uno donó y el otro no (0 * -1 o 0 * +1 = 0), no hay empate. Si ambos donaron en la misma dirección (-1 * -1 o +1 * +1 = 1), hay un empate positivo. Si ambos donaron, pero en direcciones opuestas (+1 * -1 = -1), hay un empate negativo. La suma de los productos cruzados es un recuento valorado de la preponderancia de vínculos positivos o negativos.

La método de mínimos examina las entradas de los dos actores en cada evento y selecciona el valor mínimo. Para datos binarios, el resultado es el mismo que el método de productos cruzados (si ambos, o cualquiera de los actores es cero, el mínimo es cero; solo si ambos son uno es el mínimo). En el caso de los datos valorados, el método de mínimos esencialmente dice: el vínculo entre los dos actores es igual al más débil de los vínculos de los dos actores con el evento. Este enfoque se usa comúnmente cuando los datos originales se miden como valuados.

La figura 17.3 muestra el resultado de aplicar el método de productos cruzados a nuestros datos valiosos.

Figura 17.3: Fortalezas del vínculo actor por actor (Figura 17.2)

La asociación de profesores participó en 16 campañas (el producto cruzado de la fila consigo misma cuenta el número de eventos). La asociación tomó la misma posición en temas que el Partido Demócrata (actor 7) diez veces más que tomar una posición opuesta (o ninguna). La asociación de restaurantes (nodo 10) adoptó una posición opuesta a la del Sr. Bing (nodo 9) con más frecuencia que la posición de apoyo (o no). Con este algoritmo, hemos capturado mucha, pero no toda la información de los datos originales. Una puntuación de -1, por ejemplo, podría ser el resultado de que dos actores adopten posiciones opuestas sobre un solo tema; o podría significar que los dos actores tomaron posiciones sobre varios temas y, en resumen, estuvieron en desacuerdo una vez más de lo que acordaron.

Las matrices monomodo resultantes de actores por actores y eventos por eventos son ahora matrices valoradas que indican la fuerza del vínculo basado en la co-ocurrencia. Cualquiera de los métodos para el análisis de un modo se puede aplicar ahora a estas matrices para estudiar la microestructura o la macroestructura.

Los datos de dos modos a veces se almacenan de una segunda forma, denominada matriz "bipartita". Se forma una matriz bipartita agregando las filas como columnas adicionales y las columnas como filas adicionales. Por ejemplo, una matriz bipartita de los datos de nuestros donantes tendría 68 filas (los 23 actores seguidos por las 45 iniciativas) y 68 columnas (los 23 actores seguidos por las 45 iniciativas). Los dos bloques actor por evento de la matriz son idénticos a la matriz original; los dos nuevos bloques (actores por actores y eventos por eventos) generalmente se codifican como ceros. La Transformar> Bipartito La herramienta convierte matrices rectangulares de dos modos en matrices bipartitas de dos modos. La figura 17.4 muestra un cuadro de diálogo típico.

Figura 17.4: Dialog of Transform> Datos de donaciones políticas de Bipartite for California

La valor para llenar los lazos dentro del modo suele ser cero, por lo que los actores están conectados solo por la copresencia en los eventos y los eventos están conectados solo por tener actores en común.

Una vez que los datos se han puesto en forma de una matriz bipartita cuadrada, se pueden aplicar muchos de los algoritmos que se analizan en otra parte de este texto para datos monomodo. Se necesita mucha cautela en la interpretación, porque la red que se está analizando es muy inusual en la que las relaciones son vínculos entre nodos en diferentes niveles de análisis. En cierto sentido, los actores y los eventos se tratan como objetos sociales en un solo nivel de análisis, y se pueden explorar propiedades como la centralidad y la conexión. Este tipo de análisis es relativamente raro, pero tiene algunas posibilidades creativas interesantes.

Más comúnmente, buscamos mantener a los actores y los eventos "separados" pero "conectados" y buscar patrones en cómo los actores unen los eventos y cómo los eventos unen a los actores. Examinaremos algunas técnicas para esta tarea más adelante en este capítulo. Sin embargo, un buen primer paso en cualquier análisis de red es visualizar los datos.


Ver el vídeo: #QuerynTalks - Estructura de Datos y Algoritmos (Octubre 2021).