banner
Hogar / Blog / Sobre permitir la colaboración no
Blog

Sobre permitir la colaboración no

Jun 19, 2024Jun 19, 2024

Scientific Reports volumen 13, número de artículo: 6569 (2023) Citar este artículo

771 Accesos

3 altmétrico

Detalles de métricas

Mejorar la eficiencia energética es un aspecto crucial de la construcción de una ciudad inteligente sostenible y, en términos más generales, relevante para mejorar el bienestar ambiental, económico y social. La monitorización de carga no intrusiva (NILM) es una técnica informática que estima el consumo de energía en tiempo real y ayuda a concienciar a los usuarios sobre la energía para facilitar la gestión energética. La mayoría de las soluciones NILM siguen siendo un enfoque de máquina única y no encajan bien en las ciudades inteligentes. Este trabajo propone un marco de aprendizaje federado híbrido independiente del modelo para entrenar de forma colaborativa modelos NILM para aplicaciones de ahorro de energía en toda la ciudad. El marco admite modos de capacitación centralizados y descentralizados para proporcionar una solución de aprendizaje óptima, personalizable y basada en clústeres para los usuarios. El marco propuesto se evalúa en un conjunto de datos desglosados ​​de energía del mundo real. Los resultados muestran que todos los modelos NILM entrenados en nuestro marco propuesto superan en precisión a los entrenados localmente. Los resultados también sugieren que los modelos NILM entrenados en nuestro marco son resistentes a la fuga de privacidad.

Aproximadamente el 55% de la población mundial vive en áreas urbanas, y se espera que el porcentaje aumente al 68% para 20501. Con la continua expansión de las ciudades, se ha vuelto cada vez más crucial gestionar los recursos disponibles para atender la sostenibilidad de los sistemas urbanos para satisfacer las necesidades cada vez mayores de la población urbana. Los recientes avances en Internet de las cosas, la informática de punta y el aprendizaje automático brindan soporte de hardware y software para allanar el camino hacia ciudades inteligentes sostenibles2. Uno de los grandes desafíos de la realización de ciudades inteligentes sostenibles es abordar la creciente demanda de energía eléctrica. Se han desarrollado varios enfoques3,4,5 para superar esta dificultad, pero el elemento común de estos enfoques es permitir que los consumidores sean conscientes de su consumo de electricidad detallado. Estudios anteriores6,7 muestran que la información a nivel de electrodomésticos puede ayudar a reducir el consumo de energía al aumentar la conciencia de los consumidores y facilitar nuevas aplicaciones de ahorro de energía para ciudades inteligentes sostenibles.

El consumo de energía de los electrodomésticos individuales se puede obtener mediante el monitoreo de carga no intrusivo (NILM), un método computacional para identificar el estado de los electrodomésticos y extraer el consumo de electricidad a nivel de los electrodomésticos a partir de datos de energía agregados. Los datos agregados sólo se monitorean en un único punto central, como el medidor de electricidad de un edificio o una casa. NILM puede proporcionar la información detallada sobre el consumo de energía que necesitan los sistemas de redes inteligentes, una parte esencial de las ciudades inteligentes, para formar una cohorte para una mejor prestación de servicios. Proporciona información en línea sobre el consumo de energía de los hogares para que los usuarios estén al tanto de las situaciones y les ayuden a cambiar los patrones de uso cuando sea necesario. Esta información también puede ayudar a desarrollar estrategias de respuesta a la demanda en el lado de la red para optimizar la generación y el despacho de energía. Estas interacciones por pares promueven el progreso de las ciudades inteligentes, el ahorro de energía y el desarrollo sostenible. A lo largo de los años, se han desarrollado varias soluciones experimentalmente viables utilizando modelos ocultos de Markov, minería de motivos temporales u otras técnicas de optimización combinatoria. Recientemente, los investigadores han centrado su atención en los modelos de aprendizaje automático debido a su rendimiento superior en diversas aplicaciones en múltiples disciplinas. Se han desarrollado muchos algoritmos basados ​​en aprendizaje profundo8,9,10 y algoritmos de aumento de gradiente11,12 para aplicaciones NILM y superaron a los modelos tradicionales en términos de precisión y eficiencia.

La mayoría de los enfoques NILM existentes todavía enfrentan desafíos importantes, lo que dificulta su uso generalizado para ciudades inteligentes sostenibles. En primer lugar, los modelos NILM necesitan una cantidad considerable de datos de entrenamiento para aprender características estadísticas representativas y obtener un alto rendimiento. Los enfoques convencionales abordan este problema recopilando datos de las partes interesadas para la capacitación centralizada del modelo, con transferencias de datos potencialmente costosas y problemas de privacidad y seguridad que les impiden su uso práctico. En los últimos años, se propuso el aprendizaje federado13 para entrenar un modelo global de manera colaborativa sin intercambiar los datos brutos de las partes interesadas. Las soluciones de aprendizaje federado NILM existentes están orientadas al aprendizaje profundo en un entorno centralizado14,15,16. El servidor central coordina a todas las partes interesadas para entrenar un modelo de red neuronal. Estos métodos pueden lograr el rendimiento deseado en experimentos, pero son propensos a errores en escenarios del mundo real. El aprendizaje federado centralizado generalmente experimenta una escalabilidad deficiente debido a las limitaciones de recursos que convierten al nodo central en un cuello de botella en el rendimiento cuando se manejan clientes grandes. La compleja estructura del modelo de aprendizaje profundo y los hiperparámetros asociados también imponen una alta sobrecarga computacional en el entrenamiento y la inferencia, lo que lo hace menos adecuado para ejecutarse en dispositivos con recursos limitados. Además, generalmente se supone que la distribución de datos del cliente es una distribución no independiente e idéntica (no IID), ya que es muy inconsistente en cantidad y distribución. La distribución no IID puede potencialmente contribuir con diferentes factores de actualización a los modelos del cliente y conducir a un ajuste deficiente del modelo global17. Trabajos recientes han intentado abordar estos problemas mediante el aprendizaje por transferencia y la poda de filtros18. Estos trabajos no pueden cambiar fundamentalmente la naturaleza de los modelos de aprendizaje profundo que requieren una gran cantidad de datos y potencia informática para la formación. En segundo lugar, la mayoría de los estudios10,19,20 se centran en la desagregación energética a largo plazo (más de una hora), lo que naturalmente requiere una larga secuencia de lecturas principales para cada análisis. Los dispositivos analíticos necesitan un espacio de almacenamiento sustancial para gestionar lecturas tan largas. Por último, los datos para entrenar modelos NILM son las lecturas de consumo eléctrico recopiladas de los usuarios y muestreadas casi en tiempo real. Las lecturas contienen las actividades instrumentales de todos los aparatos, incluido el encendido y apagado y el cambio de modo de funcionamiento. Trabajos anteriores21,22,23 muestran que utilizando un enfoque estadístico disponible en el mercado, es técnicamente posible revelar los patrones de uso y comportamientos de los usuarios a partir de las lecturas, como las rutinas de sueño, las rutinas de cenas, etc. Los enfoques actuales dependen en gran medida de técnicas de cifrado y privacidad diferencial para evitar la fuga de datos24,25. El inevitable costo computacional adicional en el entrenamiento del modelo se introduce en el sistema e incluso degrada el rendimiento del modelo en tiempo de ejecución. Además, una ciudad incluye usuarios con diferentes comportamientos y actividades. Los datos de estos usuarios pueden tener diferentes distribuciones estadísticas. No existe una forma sencilla, rentable y segura de reunir todos estos datos y permitir que funcionen como un todo.

En este trabajo, proponemos un marco de aprendizaje federado híbrido independiente del modelo para aplicaciones NILM para abordar los desafíos anteriores en ciudades inteligentes sostenibles. Por híbrido, queremos decir que nuestro marco admite modos de aprendizaje federados tanto centralizados como descentralizados. La principal diferencia entre ellos es utilizar un servidor para coordinar el entrenamiento del modelo en el modo centralizado, mientras que dicho servidor no participa en el modo descentralizado. En el modo descentralizado, los clientes están conectados a través de una red descentralizada. Cada cliente realiza capacitación de modelos locales y agrega modelos de otros clientes. También se puede emplear un mecanismo de agregación de modelos asincrónicos para refinar el protocolo de entrenamiento sobre la marcha, proporcionando mayor flexibilidad al sistema. Bajo el soporte dual de los modos de capacitación, nuestro marco puede ofrecer el entorno deseado a los usuarios finales para adquirir rendimiento, escalabilidad, solidez o una combinación de ellos para sus aplicaciones NILM. Por independiente del modelo, queremos decir que nuestro marco admite el entrenamiento de modelos de redes neuronales y modelos de árbol de decisión de impulso de gradiente (GBDT). Los modelos de redes neuronales logran un rendimiento de última generación en descomposición de energía y su proceso de entrenamiento encaja bien en el aprendizaje distribuido. Estos modelos generalmente requieren recursos informáticos considerables para entrenar tales escenarios. Algunos trabajos recientes también demostraron que podrían experimentar fugas de privacidad durante la ejecución, lo que los convierte en una solución que no es única para admitir aplicaciones NILM. GBDT, por otro lado, hereda la estructura simple de los modelos de árbol y comparte menos parámetros durante el entrenamiento, volviéndose más seguro y amigable con los recursos. El uso de GBDT en nuestro marco está motivado por sus resultados previos en problemas de regresión no lineal con baja complejidad de cálculo26,27. Nuestro marco considera los datos de distribuciones idénticas y no independientes (no IID) entre clientes sobre el rendimiento del modelo agrupando a los usuarios con una distribución de consumo de energía similar en un grupo de entrenamiento. También introducimos una estrategia de desagregación de energía a corto plazo en nuestro marco reduciendo el tamaño de la ventana utilizada en el análisis de secuencia a punto. Esta estrategia puede reducir significativamente los costos de gestión de datos en dispositivos locales y al mismo tiempo hacer posible la toma de decisiones en tiempo real sobre la gestión de energía.

Las principales contribuciones de este trabajo incluyen:

Proponemos un marco de aprendizaje federado híbrido independiente del modelo para proporcionar un medio flexible, eficiente y seguro para entrenar modelos NILM en ciudades inteligentes sostenibles. Admite el entrenamiento de redes neuronales profundas y modelos de árbol de aumento de gradiente en el modo de aprendizaje federado centralizado y redes neuronales profundas en el aprendizaje federado descentralizado.

El desempeño del marco propuesto se evalúa empíricamente en un conjunto de datos energéticos del mundo real. Los resultados muestran que los modelos NILM entrenados en nuestro marco propuesto para todos los modos de entrenamiento superan a los modelos entrenados localmente en términos de precisión.

Realizamos experimentos extensos para estudiar la efectividad de un método de ataque de gradiente de última generación contra nuestro marco de aprendizaje federado con aplicaciones NILM. Descubrimos que nuestro marco propuesto puede proteger la privacidad del usuario de ataques de gradiente con resultados prometedores.

En esta sección, presentamos el diseño de nuestro marco de aprendizaje federado híbrido propuesto para aplicaciones NILM.

El diseño de nuestro marco de aprendizaje federado híbrido propuesto para aplicaciones NILM.

Nuestro objetivo es proponer un marco de aprendizaje federado híbrido independiente del modelo para aplicaciones NILM en toda la ciudad. El marco, como se muestra en la Fig. 1, primero agrupa a los clientes en grupos según su similitud en el uso de electricidad y sus recursos de cálculo. Para cada grupo de formación se determina el modo de aprendizaje federado apropiado (centralizado o distribuido) y el modelo de aprendizaje automático más adecuado. Nuestro marco ahora puede admitir el entrenamiento de redes neuronales profundas y modelos de árbol de aumento de gradiente en el modo de aprendizaje federado centralizado y redes neuronales profundas en el modo de aprendizaje federado descentralizado. Desarrollamos una estrategia de descomposición de energía a corto plazo que analiza la lectura de energía de baja frecuencia reduciendo el tamaño de la ventana utilizada en secuencia a punto. La estrategia a corto plazo puede respaldar decisiones de gestión de energía en tiempo real, reducir los costos de gestión de datos y depender menos de las capacidades del hardware.

No es práctico esperar que los datos de consumo de los usuarios sean siempre independientes y distribuidos de manera idéntica (IID) en escenarios de aprendizaje federado. Es probable que los gradientes calculados localmente sean estimaciones sesgadas de los gradientes globales, lo que plantea desafíos para una convergencia más rápida y un mejor rendimiento. Para abordar un desafío no relacionado con IID, realizamos agrupaciones entre diferentes clientes y agrupamos a usuarios con patrones estadísticos similares en el mismo grupo para el entrenamiento del modelo. Nuestro enfoque de agrupación también tiene en cuenta la preservación de la privacidad al intercambiar las probabilidades de transición de Markov en lugar de mediciones de carga sin procesar. Inspirándonos en el campo de transición de Markov (MTF)28, convertimos las mediciones de carga de series temporales de los clientes en matrices de Markov. El espacio de entrada de la secuencia de consumo de energía \(\{x_1 \ldots x_n\}\) se discretiza como Q contenedores de cuantiles, y cada elemento de la secuencia se asigna a un cuantil. Por ejemplo, \(q_i\) y \(q_j\) (\(q\in [1,Q]\)) denotan los cuantiles de \(x_i\) y \(x_j\). El elemento \(M_{ij}\) de la matriz de Markov M se puede calcular mediante la probabilidad de transición de \(q_i\) al cuantil \(q_j\). Con las matrices de Markov de los clientes comprometidos, la fase de agrupación se puede lograr utilizando TS-SOM (mapas autoorganizados estructurados en árbol)29. TS-SOM divide las matrices generadas en múltiples grupos como un método de agrupamiento jerárquico al asignar cada nodo del árbol a una red neuronal SOM estándar. La agrupación se realiza de forma iterativa desde la raíz hasta las hojas hasta que se alcanza la profundidad del árbol preestablecida. En el nivel inferior del árbol, cada hoja representa un grupo de clientes que entrenarán de forma colaborativa un modelo NILM.

En el modo de aprendizaje federado centralizado, el proceso de capacitación del modelo de cada clúster está coordinado por un servidor central alojado por un tercero confiable. Cada cliente mantiene un modelo local para cada dispositivo en este modo y actualiza el modelo con sus datos disponibles localmente. Mientras tanto, el servidor central mantiene un modelo global para cada dispositivo y actualiza los modelos globales agregando los modelos locales actualizados de todos los clientes correspondientes. A continuación, presentamos además los procedimientos de entrenamiento de redes neuronales profundas y árboles de aumento de gradiente en el modo de aprendizaje federado centralizado.

El entrenamiento de un modelo de red neuronal profunda en modo de aprendizaje federado centralizado consta de dos partes: ejecución del servidor y actualizaciones locales del cliente. En las actualizaciones locales del cliente, todos los clientes entrenan el modelo en paralelo y pasan el modelo actualizado al servidor al final del proceso de entrenamiento. La ejecución del servidor se realiza durante todo el proceso de capacitación y agrega continuamente el modelo actualizado localmente. La ejecución del servidor comienza cuando el servidor central inicializa los modelos globales \(\omega _{0}\) mientras define el protocolo de entrenamiento basado en los recursos computacionales disponibles. El protocolo de entrenamiento define la división entrenamiento-prueba, la tasa de aprendizaje \(\eta \), el tamaño del lote de entrenamiento local B y las épocas de entrenamiento local E. Cada cliente se prepara para el entrenamiento dividiendo su conjunto de datos local en un conjunto de entrenamiento y una prueba. establecido según el protocolo de entrenamiento. El conjunto de entrenamiento se divide a su vez en \(\frac{N}{B}\) lotes de entrenamiento donde N es el tamaño del conjunto de entrenamiento. Dentro de cada iteración de entrenamiento t, cada cliente realiza una actualización local en paralelo. Los clientes primero solicitan los últimos modelos globales del servidor central para actualizar sus modelos locales. Cada cliente entrena los modelos locales utilizando su conjunto de datos de entrenamiento para épocas E. Cuando se completa la capacitación local, el rendimiento del modelo local actualizado se evalúa en el conjunto de prueba. El resultado de la evaluación y el modelo local actualizado se envían al servidor central para actualizar el modelo global. El servidor central actualiza el modelo global \(\omega _{t}\) a través del algoritmo de promedio federado que realiza una agregación ponderada de todos los modelos de los clientes. A cada modelo se le asigna un peso \( \frac{N_{i}}{ \sum _{j}^{C}N_{j}}\), donde \(n_i\) denota la cantidad de datos que posee el cliente i. , C es el número de clientes en el grupo de formación. Finalmente, el servidor central verifica si se alcanza la condición de terminación según el resultado de la evaluación de los clientes en esta ronda de capacitación. Los pseudocódigos del algoritmo se muestran en el Algoritmo 1 y el Algoritmo 2.

La parte fundamental de la construcción colaborativa de un modelo de árbol es encontrar la mejor división en el punto del espacio de características para todos los clientes del clúster, pero sin compartir sus datos sin procesar. Implementamos un modelo de árbol de decisión de aumento de gradiente federado30 para lograr este objetivo, donde los histogramas de gradiente se comparten entre los clientes y el servidor central y se utilizan como datos de entrenamiento para la construcción del modelo. Cada uno de estos histogramas representa las estadísticas de gradiente de una característica específica de los datos de entrenamiento. El histograma se construye asignando gradientes en múltiples depósitos. Se utiliza un algoritmo de boceto de cuantiles30 para determinar el cuantil \(Q-1\) para cada característica. Esos cuantiles son los puntos de corte para dividir el rango de valor de la característica en grupos Q. De manera similar al modelo de red neuronal profunda, el modelo GBDT se construye en dos partes: ejecución del servidor central e histograma de cómputo del cliente. El proceso de entrenamiento de GBDT en modo de aprendizaje federado centralizado se muestra en el Algoritmo 3 y el Algoritmo 4. En la fase de inicialización, el servidor central define los parámetros de entrenamiento del algoritmo de crecimiento del árbol y coordina a todos los clientes para ejecutar el algoritmo de boceto cuantil para encontrar el cuantil de histogramas para cada característica. Cada cliente calcula histogramas de gradiente para cada característica durante el proceso de división de nodos en paralelo al mapear sus datos de entrenamiento locales en depósitos de acuerdo con los valores de características correspondientes de los datos de entrenamiento. Los histogramas de gradiente se transmiten al servidor central. Una vez que el servidor central recibe todos los histogramas de gradiente, agrega los histogramas de cada característica y busca el punto de división en todos los histogramas agregados. Luego, el nodo se divide en dos nodos y el servidor central comienza a coordinar la división del siguiente nodo. El proceso de crecimiento del árbol finalizará cuando se cumplan los criterios de parada.

El servidor central ya no es necesario para coordinar la construcción del modelo colaborativo en el modo de aprendizaje federado descentralizado. En cambio, el modelo se construye mediante comunicación entre pares entre clientes y los detalles se muestran en el Algoritmo 5. Suponemos que los clientes en un grupo de entrenamiento forman una red completamente conectada, lo que significa que se puede enviar información entre dos clientes cualesquiera. Se requiere que cada cliente realice tanto la capacitación del modelo local como la agregación de modelos. Antes de que comience el entrenamiento, cada cliente debe realizar los siguientes pasos: iniciar el parámetro del modelo local usando la misma semilla aleatoria, dividir su conjunto de datos local en un conjunto de entrenamiento y un conjunto de prueba, y configurar un protocolo de entrenamiento para la primera ronda. Se propone un mecanismo de agregación de modelos asincrónicos y un protocolo de entrenamiento dinámico para mejorar la flexibilidad y seguridad del marco. El marco permite a los clientes perfeccionar el protocolo de entrenamiento sobre la marcha según los estados de su red y los recursos informáticos disponibles. La agregación del modelo se puede realizar inmediatamente después de que un cliente complete su proceso de capacitación local sin considerar el estado de otros clientes. Las solicitudes para la actualización conjunta del modelo se envían aleatoriamente a otros K clientes en el mismo clúster durante el proceso de agregación del modelo. Los clientes solicitados envían sus modelos locales mientras continúan el proceso de capacitación. Una vez que el cliente ha recibido todos los modelos, utiliza el conjunto de pruebas local para evaluar el rendimiento de todos los modelos recibidos y de los modelos locales. A cada modelo se le asigna un peso basado en el rendimiento según su reacción al conjunto de prueba. El recíproco del error se utiliza como peso del modelo, ya que cuanto menor sea el valor de los errores en nuestros experimentos, mejor será el rendimiento del modelo. El peso se define como \(\frac{L_{k}^{-1}}{\sum _{i=1}^{K+1}L_{i}^{-1}}\), donde \ (L_k\) es el MAE del modelo del cliente k en el conjunto de pruebas del cliente que actualmente realiza la agregación. El modelo local se actualiza mediante un promedio ponderado de todos los modelos y luego se inicia una nueva ronda de capacitación.

En esta sección, primero presentamos el conjunto de datos, REFIT31 (Herramientas personalizadas de apoyo a la toma de decisiones de modernización para hogares del Reino Unido que utilizan tecnología de hogar inteligente), utilizado para realizar los experimentos, seguido de las métricas de rendimiento utilizadas para medir la calidad y utilidad de nuestro enfoque. Luego presentamos la configuración de nuestros estudios experimentales, incluidos hardware y software. Realizamos experimentos integrales para evaluar nuestro marco propuesto desde dos perspectivas: rendimiento y conciencia de privacidad. Para las evaluaciones relacionadas con el desempeño, examinamos cuidadosamente la convergencia de errores de entrenamiento y el desempeño de desagregación NILM de nuestro marco de aprendizaje federado propuesto tanto en modo centralizado como descentralizado. Por conveniencia, utilizamos el término entrenamiento centralizado, que se refiere a aquellos modelos entrenados en el modo centralizado, y entrenamiento distributivo se refiere a aquellos entrenados en el modo descentralizado. Para las evaluaciones del conocimiento de la privacidad, estudiamos la efectividad de un ataque de gradiente en aplicaciones NILM en nuestro marco. Demostramos que es poco probable que el ataque de gradiente adquiera información valiosa de nuestro marco sin mecanismos explícitos de protección de la privacidad.

El conjunto de datos de medición de carga eléctrica REFIT31 es uno de los cuatro conjuntos de datos REFIT disponibles públicamente. Contiene datos brutos de consumo eléctrico de 20 hogares en Loughborough, Reino Unido, de 2013 a 2015, tanto a nivel agregado como de electrodomésticos. Los datos se midieron en vatios y se tomaron muestras a intervalos de 8 segundos. Utilizamos los conjuntos de datos de cinco casas y seleccionamos cinco electrodomésticos de uso común, a saber, lavavajillas, refrigerador, lavadora, horno microondas y hervidor, para formar un total de 25 conjuntos de datos para el entrenamiento del modelo. El modelo NILM de secuencia a punto está diseñado para procesar los datos de consumo eléctrico sin procesar. Las secuencias de consumo agregadas se dividieron en un tamaño de ventana de 19 muestras de datos. Cada subsecuencia cortada corresponde al consumo de un solo nivel de electrodoméstico en su punto medio. Para cada uno de los 25 conjuntos de datos, el 80% de las muestras se utilizaron para el entrenamiento del modelo y el resto para pruebas.

Implementamos nuestro algoritmo con PyTorch en Google Colab, que proporciona recursos informáticos de una CPU Intel Xeon de 4 x 2,30 GHz, 16 GB de RAM y una tarjeta gráfica NVIDIA Tesla P100 con 16 GB de VRAM. Todos los experimentos se llevaron a cabo en Ubuntu 18.04. Se utilizó un modelo de red neuronal convolucional (CNN32) con cinco capas convolucionales seguidas de dos capas lineales y un modelo de árbol de decisión de aumento de gradiente (GBDT33) para entrenar modelos NILM de secuencia a punto. Los hiperparámetros para entrenar estos modelos se presentan en la Tabla 1, a menos que se indique lo contrario. Todos los puntos de datos reportados son un promedio de 500 ejecuciones.

Utilizamos la convergencia de entrenamiento de los modelos para evaluar la eficacia y estabilidad del marco propuesto. Los errores de entrenamiento se registran al final de cada ronda de entrenamiento y se traza la curva de aprendizaje para verificar el estado de convergencia de diferentes modelos de aprendizaje automático. La pérdida de entrenamiento se evalúa mediante RMSE, que mide la desviación estándar del error de entrenamiento como se define en la Ecuación (1). RMSE es computacionalmente simple y fácilmente comprensible para servir como función objetivo para el entrenamiento de modelos. También empleamos otras cuatro métricas de desempeño para evaluar el desempeño del marco desde diferentes aspectos. El rendimiento de desagregación de los modelos NILM se evalúa mediante tres métricas comúnmente utilizadas, MAE, SAE y NDE, en los estudios NILM34,35. El error absoluto medio (MAE) indica el error absoluto promedio entre la predicción del modelo y el valor real. Se define formalmente como Ecuación (2) donde y y \(\hat{y}\) representan el valor previsto y el valor real, respectivamente. El error agregado de señal (SAE), como se muestra en la ecuación (4), mide la diferencia relativa entre el consumo total de energía previsto y el valor real en cualquier período T dado. La ecuación (5) define matemáticamente el error de desagregación normalizado (NDE), que denota el error normalizado entre el consumo previsto y las lecturas reales. El error relativo medio (MRE) se utiliza exclusivamente en la evaluación de fugas de privacidad, definido por la Ecuación (3), que representa el error de predicción en relación con los valores observados. Muestra la similitud de los datos recuperados con los datos reales para revelar el riesgo de fuga de privacidad. Para todas las métricas, cuanto menor sea el valor, menor será la desviación entre las estimaciones y la verdad fundamental generada por el modelo.

Esta sección evalúa el rendimiento de los modelos NILM de secuencia a punto en nuestro marco propuesto bajo el modo de aprendizaje federado centralizado. Los experimentos se llevaron a cabo en un grupo de formación formado por cinco clientes. Los clientes están conectados a través de un servidor central para realizar la capacitación del modelo centralizado. En cada ronda de capacitación, todos los clientes primero actualizan sus modelos locales utilizando los datos locales privados y luego los modelos actualizados se envían al servidor central para su agregación. Tenga en cuenta que la selección de cinco clientes se debe a la simplicidad de interpretación de los resultados. Cada cliente tiene un conjunto de entrenamiento del mismo tamaño. También asumimos que cada cliente está equipado con los mismos recursos computacionales y sigue el mismo protocolo de capacitación. Los modelos CNN y GBDT mencionados anteriormente se utilizaron para realizar NILM para identificar las operaciones de los dispositivos. Para comparar y monitorear la variación del rendimiento de nuestro marco a lo largo del tiempo, también probamos los mismos modelos entrenados y ejecutándose en el dispositivo local solo para realizar las mismas tareas.

Convergencia de la pérdida de capacitación para la CNN capacitada centralmente en cinco casas en REFIT.

Comparación de MAE entre CNN capacitada centralmente y CNN capacitada localmente en cinco casas en REFIT.

La Figura 2 muestra las convergencias de pérdida de entrenamiento de los modelos CNN entrenados centralmente en nuestro marco. Se puede ver que nuestro marco proporciona convergencias de pérdida de entrenamiento estables en todos los dispositivos objetivo. Este resultado sugiere que los modelos entrenados centralmente tienen fuertes capacidades de generalización dentro del grupo de entrenamiento. El marco puede garantizar una convergencia estable de la pérdida para los dispositivos de destino sin comprometer a ningún cliente, independientemente del tipo de dispositivo, la cantidad de dispositivos y los patrones de uso. Comparamos el error de desagregación en la prueba del conjunto entre el modelo CNN entrenado centralmente y el CNN entrenado localmente en la Fig. 3 y la Tabla 2. Como se muestra en la Tabla 2, las CNN capacitadas centralmente logran un error de descomposición más bajo en tres métricas de evaluación que el de los modelos CNN entrenados localmente para la mayoría de los dispositivos. La Figura 3 muestra el MAE de cada cliente en el equipo de prueba. Se puede observar claramente que el MAE de la CNN entrenada centralmente se mantiene por debajo del modelo de CNN entrenado localmente en la mayoría de los casos. Este resultado sugiere que la CNN entrenada centralmente no solo logra un error de descomposición general más bajo, sino que todos los clientes en el grupo de entrenamiento pueden obtener un modelo de descomposición de energía más preciso a través del modo de aprendizaje federado centralizado. El modelo CNN capacitado centralmente en realidad representa una solución NILM de aprendizaje federado basada en aprendizaje profundo existente. Se puede encontrar una estructura de modelo similar en 14,36. Se utiliza como punto de referencia para las comparaciones posteriores.

En esta sección, se evalúa el desempeño de los modelos NILM entrenados en el modo de aprendizaje federado descentralizado. Realizamos los experimentos con las mismas tareas que los experimentos de aprendizaje federado centralizado. En el modo de aprendizaje federado descentralizado, cada cliente define su propio protocolo de capacitación para actualizar el modelo local de forma asincrónica durante el proceso de capacitación. Una vez que un cliente llega a la fase de agregación de modelos, adquiere modelos de otros k clientes en el mismo grupo para la agregación de modelos de acuerdo con un promedio ponderado de valores que refleja el rendimiento de cada modelo en el conjunto de pruebas local. En los experimentos, investigamos el impacto de la elección de k en la convergencia de la pérdida de entrenamiento. Luego comparamos el rendimiento de los algoritmos NILM entrenados en aprendizaje federado centralizado, aprendizaje federado descentralizado y modos locales.

La Figura 4 muestra las convergencias de pérdidas de los modelos CNN entrenados en modo descentralizado con diferentes k. Aunque el error de entrenamiento de cada modelo de dispositivo converge rápidamente en todos los experimentos, todavía existe una diferencia notable en el proceso de convergencia local. La Figura 4a muestra las curvas de convergencia cuando k se establece en 1. Notamos que existen fluctuaciones rápidas en las curvas de convergencia de cada modelo, lo cual es particularmente evidente en los modelos de lavadora y microondas. El cambio de la tasa de convergencia de los modelos es bastante lento; por ejemplo, el modelo de lavavajillas todavía quedó atrapado en un mínimo local después de 100 rondas de entrenamiento. Sin embargo, estos problemas se mitigaron aumentando el valor de k. Las Figuras 4b,c muestran las curvas de convergencia cuando k se establece en 2 y 3, respectivamente. Podemos observar que las curvas de convergencia de pérdida de entrenamiento se volvieron más suaves junto con el aumento del valor k y la curva de convergencia del modelo mostró una tendencia a coincidir con la curva obtenida del modo de aprendizaje federal centralizado. También comparamos el rendimiento de los modelos NILM entrenados en el modo descentralizado y en el modo centralizado. Establecimos k en 2 para entrenar los modelos NILM en el modo descentralizado para una comparación justa. La Tabla 3 muestra el rendimiento evaluado de los modelos NILM entrenados en el modo descentralizado en los conjuntos de prueba, y la Fig. 5 compara el rendimiento de los modelos NILM entrenados en tres modos diferentes. Podemos ver que los modelos entrenados en el modo descentralizado superan claramente a los entrenados localmente y muestran un rendimiento similar a los entrenados en el modo centralizado en términos de precisión.

Convergencia de la pérdida de capacitación para el modo de aprendizaje federado descentralizado con k diferente en cinco casas en REFIT.

Comparación de MAE entre CNN con capacitación distributiva, CNN con capacitación central y CNN con capacitación local en cinco casas en REFIT.

En esta sección, examinamos el rendimiento de GBDT en modo de entrenamiento centralizado para los problemas NILM de secuencia a punto. También utilizamos modelos GBDT entrenados localmente y CNN entrenados centralmente como puntos de referencia en los experimentos. Como se muestra en la Fig. 6, la pérdida de entrenamiento del modelo GBDT entrenado centralmente en todos los clientes convergió rápidamente (en aproximadamente 20 épocas o menos) a un valor estable. En comparación con la misma prueba con CNN representada en la Fig. 2, los modelos GBDT superaron claramente a los de CNN ya que las curvas de pérdida disminuyen de manera suave y coherente a estados estables en épocas notablemente cortas. Este resultado sugiere que la naturaleza liviana de GBDT requiere menos parámetros. para ajustarse durante el entrenamiento, haciendo que el modelo converja rápidamente. También comparamos el desempeño entre los GBDT capacitados centralmente y localmente. Los resultados se muestran tanto en la Fig. 7 como en la Tabla 4. No es sorprendente que los resultados muestren que el GBDT capacitado centralmente superó al capacitado localmente en casi todos los aspectos. Creemos que la diferencia de rendimiento proviene de que el modelo GBDT entrenado centralmente puede aprender conocimientos adicionales de los datos de los otros miembros en el grupo de entrenamiento para mejorar su precisión de predicción. En la Fig. 7, también observamos que el modelo GBDT logró el rendimiento más avanzado. Su rendimiento coincidió igualmente con el modelo CNN en nuestras pruebas. Más importante aún, el modelo GBDT consumió pequeños recursos computacionales. Como se muestra en la Tabla 5, el tamaño del modelo y el tiempo de inferencia son aproximadamente 1/6 y 1/12 del modelo CNN. Los resultados anteriores demuestran que el modelo GBDT puede proporcionar predicciones precisas y al mismo tiempo requiere significativamente menos recursos informáticos. Estas propiedades únicas lo convierten en el principal candidato para realizar NILM en dispositivos con recursos limitados.

Convergencia de la pérdida de capacitación para GBDT capacitado centralmente en cinco casas en REFIT.

Comparación de MAE entre el modelo GBDT capacitado centralmente, GBDT capacitado localmente y CNN capacitado centralmente en cinco casas en REFIT.

En esta sección, estudiamos cómo el algoritmo de agrupamiento afecta el rendimiento del modelo de aprendizaje federado en los clientes. Utilizamos más clientes en los experimentos de clústeres para demostrar mejor el algoritmo. Se seleccionaron diez casas de REFIT para representar a diez usuarios de energía individuales y se dividieron en dos grupos de entrenamiento del mismo tamaño mediante el algoritmo de agrupación descrito anteriormente. El modelo CNN se utilizó para realizar tareas NILM en nuestros experimentos. Probamos el modelo CNN en tres escenarios diferentes: 1) entrenado centralmente con los datos solo del grupo de pertenencia, 2) entrenado distributivamente con los datos solo del grupo de pertenencia y 3) entrenado centralmente con todos los datos de diez casas. . Los modelos entrenados se probaron en el conjunto de prueba de cada casa. Tenga en cuenta que el modelo entrenado con datos de las diez casas utiliza el doble de datos de entrenamiento que los otros dos modelos.

Los resultados del experimento se muestran a continuación. La Figura 8 muestra la comparación MAE entre modelos CNN entrenados centralmente con y sin agrupamiento. No es difícil ver que el error de predicción del modelo disminuyó después de la agrupación en la mayoría de los casos. El MAE promedio del modelo entrenado con agrupamiento cayó de 22,51 a 21,02 en comparación con el modelo sin agrupamiento. Este resultado indica que emplear un algoritmo de agrupamiento puede ayudar a reducir las discrepancias en la distribución de los datos de usuario agrupados y mejorar el rendimiento general del modelo en consecuencia. La Figura 9 muestra la comparación MAE entre el modelo CNN entrenado distributivamente con agrupamiento y el modelo CNN entrenado centralmente sin agrupamiento. Nuevamente podemos observar una clara mejora en el rendimiento después de la agrupación. El modelo CNN entrenado distributivamente en cada grupo de entrenamiento reduce el MAE promedio en 0,53 en comparación con el modelo centralizado no agrupado. Los resultados de nuestro experimento indican que agrupar clientes con distribuciones estadísticas similares puede mitigar el impacto de los datos no IID (independientes e idénticamente distribuidos) en el modelo global. Además, encontramos que el simple incremento de clientes no necesariamente mejora el desempeño global del modelo. Este hallazgo va en contra del sentido común del aprendizaje automático convencional: cuantos más datos de entrenamiento, mejor será el rendimiento del modelo. Sin embargo, en el aprendizaje federado, una simple combinación de clientes con distribución de datos no iid puede ralentizar la convergencia del modelo global y sacrificar el rendimiento. El ingenuo aumento de los datos de entrenamiento podría ser contraproducente y no será la mejor estrategia para mejorar el rendimiento.

Comparación de MAE entre CNN capacitada centralmente con y sin agrupamiento en REFIT.

Comparación de MAE entre CNN entrenada distributivamente con agrupamiento y CNN entrenada centralmente sin agrupamiento en REFIT.

Esta sección realizó experimentos integrales para evaluar la efectividad de los ataques de gradiente en nuestro marco de aprendizaje federado y analizar los riesgos de fuga de privacidad para las aplicaciones NILM.

Comenzamos con una breve introducción del ataque de gradiente, seguida de los resultados experimentales.

Deep Leakage from Gradients (DLG)37 es un método basado en optimización que recupera datos de entrenamiento sin procesar ajustando continuamente los datos ficticios inicializados aleatoriamente y haciendo coincidir su gradiente con el gradiente observado. La función objetivo es

donde \(L(\triangledown W',\triangledown W)\) representa la función de pérdida que mide la similitud entre el gradiente de datos ficticios \(\triangledown W'\) y el gradiente real \(\triangledown W\). \(\ell (F(x', W), y')\) es la función objetivo para el entrenamiento profundo de la red. Solo necesita garantizar \(\ell \) como función diferenciable para la mayoría de las tareas de aprendizaje automático. Este problema de optimización se puede resolver utilizando un método estándar basado en gradientes.

Nos centramos principalmente en el modo de formación centralizado, ya que el modo de formación descentralizado puede verse de alguna manera como si cada cliente ejecutara un programa de formación centralizado. Por lo tanto, la evaluación de privacidad para el modo centralizado también es aplicable al modo descentralizado. Utilizamos la similitud del coseno entre los gradientes observados y reales como función objetivo para el ataque de gradiente. Se utilizó el optimizador Adam para resolver el problema de optimización. Cada experimento realizó al menos 200.000 iteraciones para garantizar que la función de pérdida convergiera. Examinamos por separado la efectividad de los ataques de gradiente en la recuperación de datos de entrenamiento en diferentes configuraciones (por ejemplo, tamaño de lote, estado de convergencia del modelo y varias tareas de aprendizaje automático) para el aprendizaje federado. Utilizamos los modelos CNN entrenados centralmente para las pruebas, ya que este modo es más vulnerable a la fuga de privacidad. Los datos del experimento fueron 24 conjuntos de datos seleccionados al azar, extraídos por igual de la lavadora, el frigorífico y el hervidor. Empleamos MAE, MRE, SAE y NDE como métricas de rendimiento para medir la calidad de los ataques.

Primero investigamos el efecto del tamaño del lote local en un escenario básico donde el modelo se encuentra en su estado inicial sin ningún entrenamiento. Cada cliente alimenta un pequeño lote de datos para actualizar el modelo en la fase de actualización local y luego envía el modelo actualizado al servidor central. Una vez que el servidor central recibe un modelo de un cliente, puede derivar los gradientes de ese cliente en la ronda de entrenamiento actual calculando las diferencias de peso entre el modelo global y el recibido. El servidor central recupera las entradas y etiquetas sin procesar del cliente del gradiente utilizando el algoritmo DLG. La Tabla 6 muestra el error de los datos de entrenamiento recuperados del ataque de gradiente para diferentes tareas en diferentes tamaños de lote. Es fácil notar que el ataque de gradiente puede recuperar efectivamente los datos de entrenamiento cuando el tamaño del lote es pequeño. Por ejemplo, cuando el tamaño del lote es equivalente a 1 (el tamaño del lote se indica con B1), los errores de las entradas y etiquetas de entrenamiento recuperadas se concentran dentro de un rango limitado. Sin embargo, a medida que aumenta el tamaño del lote, el error de los datos recuperados aumenta drásticamente. Cuando el tamaño del lote es 8, los valores MAE entre los datos recuperados y los datos de entrenamiento reales alcanzan 994,98 y 986,45 en las pruebas de clasificación y regresión. Mientras tanto, los valores de MRE alcanzan 2,58 y 3,55, respectivamente. Los errores de datos recuperados son incluso mayores que los valores de datos de entrenamiento reales. En tales circunstancias, los datos recuperados difícilmente pueden revelar información útil. Para proporcionar una demostración clara, mostramos los resultados de los datos recuperados en la Fig. 10. Tenga en cuenta que el gradiente no contiene ninguna información sobre el orden de los datos de entrenamiento. Los datos recuperados están desordenados y no se pueden comparar directamente con los datos del lote original. Como resultado, aplicamos el algoritmo húngaro38 para encontrar una coincidencia entre los datos de entrenamiento recuperados y los reales para evaluar el error de recuperación en el resultado de la coincidencia. Se puede ver que cuando el tamaño del lote es 1, los datos de entrenamiento recuperados coinciden perfectamente con los datos de entrenamiento reales. El MAE entre las etiquetas recuperadas y reales se mantiene dentro de un rango aceptable. A medida que aumenta el tamaño del lote, el MAE aumenta gradualmente. Cuando el tamaño del lote es 2 y 4, hay una discrepancia por parte de los datos de entrenamiento recuperados, mientras que algunos de los datos recuperados aún se alinean con los datos de entrenamiento reales. Cuando el tamaño del lote aumenta a 8, el ataque de gradiente no logra recuperar ningún dato de entrenamiento.

Algunos de los datos de entrenamiento recuperados de actualizaciones de modelos con diferentes tamaños de lote. Los datos de entrenamiento recuperados se seleccionaron aleatoriamente del conjunto de datos del hervidor.

También evaluamos si la efectividad de los ataques de gradiente se vería afectada por el estado de convergencia del modelo. La convergencia del modelo se cuantifica por el número de épocas en las que se entrena el modelo. Establecimos el tamaño del lote de recuperación en 1 y recuperamos los datos de entrenamiento según los pesos de los modelos de 0, 1, 5 y 10 épocas. La Tabla 7 ilustra el rendimiento de recuperación del ataque de gradiente en diferentes estados de convergencia del modelo. Se presentan tareas de regresión y clasificación. No es difícil notar que la convergencia del modelo tiene un impacto significativo en el ataque de gradiente. Al recuperar datos de entrenamiento a partir de los pesos de un modelo no entrenado, la discrepancia entre los datos recuperados y los reales es baja. A medida que la época de entrenamiento aumenta de 0 a 10, el valor MRE de la entrada recuperada aumenta de 0,01 a 6,6 para las tareas de clasificación y de 0,0006 a 10,462 para las tareas de regresión. Además, la precisión de las etiquetas de entrenamiento recuperadas disminuye significativamente. El MAE de las etiquetas crece de 0 a 474,89 para las tareas de regresión, mientras que la precisión de las etiquetas cae del 100% al 66,67% para las tareas de clasificación. Los resultados indican que el ataque de gradiente pierde rápidamente eficacia en la recuperación de datos de entrenamiento a medida que aumenta la época. Por lo tanto, podemos concluir que, para las tareas NILM, el método de ataque de gradiente solo funciona en las primeras etapas del entrenamiento del modelo NILM, pero dicha fuga es superficial y no es suficiente para representar una amenaza a la privacidad del usuario.

En este trabajo, proponemos un marco de aprendizaje federado híbrido independiente del modelo para aplicaciones NILM en ciudades inteligentes sostenibles. Su objetivo es proporcionar una forma flexible, eficiente y segura de entrenar modelos NILM de forma colaborativa. La idea central del marco es permitir que cada usuario utilice los modelos NILM más adecuados introducidos en el entorno adecuado para satisfacer sus necesidades. Nuestro marco admite el aprendizaje federado tanto centralizado como descentralizado. En el modo de aprendizaje federado centralizado, el servidor de cada grupo de capacitación es responsable de aprovisionar y administrar el proceso de capacitación para todos los usuarios. Este modo de formación tiene muchas ventajas, como una rápida convergencia del modelo global, una buena generalización y bajos costes de comunicación. Además, los mayoristas y minoristas de energía pueden utilizar información en tiempo real de sus compañeros usuarios para comprender mejor sus comportamientos y actividades. Pueden alinearse con la comprensión dominante de los usuarios como individuos racionales para establecer incentivos financieros más atractivos para participar en programas de respuesta a la demanda39, que han sido reconocidos como una solución viable para garantizar la estabilidad de la red y la seguridad del suministro de energía. A pesar de la versatilidad del modo de aprendizaje federado centralizado, encuentra múltiples problemas a nivel del sistema, como fallas en un solo punto y poca escalabilidad. Además, el servidor podría convertirse rápidamente en un cuello de botella en el rendimiento del framework. A medida que aumenta el número de usuarios, la carga de comunicación y computación en el servidor aumenta rápidamente. También aumenta el tiempo necesario para el entrenamiento por ronda. En el modo de aprendizaje federado descentralizado, los usuarios del mismo grupo de capacitación comparten los modelos de forma asincrónica con otros a través de comunicación entre pares, y cada usuario solo es responsable de sus modelos. Este modo mejora la escalabilidad y elasticidad del marco. Nuestro marco actualmente admite el entrenamiento de modelos de redes neuronales en modo centralizado y descentralizado y modelos de árbol de aumento de gradiente en modo centralizado. Probamos el rendimiento de dos modelos de aprendizaje automático utilizando nuestro marco propuesto en un conjunto de datos del mundo real y lo comparamos con modelos entrenados localmente. Los resultados experimentales muestran que los modelos entrenados en nuestro marco superan a los modelos entrenados localmente en términos de precisión y diversidad. Además, los modelos entrenados en el modo descentralizado tienen una velocidad de convergencia y un rendimiento similares a los entrenados en el modo centralizado.

También hemos investigado los problemas de privacidad del usuario en el aprendizaje federado para aplicaciones NILM. Como se mencionó anteriormente, la filtración de un conjunto de datos de consumo eléctrico puede revelar patrones de comportamiento de los usuarios de energía y comprometer seriamente su privacidad. Por lo tanto, investigamos la efectividad de un método de ataque de última generación contra marcos de aprendizaje federados en aplicaciones NILM. A través de nuestros experimentos, llegamos a dos hallazgos. La primera es que el ataque de gradiente sólo es aplicable a marcos de aprendizaje federales centralizados. Para realizar el ataque de gradiente, el atacante debe conocer los gradientes actualizados y el tamaño del conjunto de datos local utilizado para el entrenamiento. Esta información sólo está disponible para un servidor central en el modo de aprendizaje federado centralizado. En un modo de aprendizaje federado descentralizado, ya no se utiliza el servidor central y se emplean actualizaciones del modelo asíncrono. Un atacante que se hace pasar por un cliente tiene acceso a modelos de solo unos pocos clientes aleatorios y no tiene forma de saber el tamaño del conjunto de datos local utilizado para cada actualización del modelo. Por lo tanto, el ataque de gradiente difícilmente se puede aplicar a un marco de aprendizaje federado descentralizado. Aunque se puede utilizar un ataque de gradiente para atacar un marco de aprendizaje federado centralizado, esto no significa que pueda comprometer la privacidad del usuario. Mostramos que el ataque de gradiente solo es válido para recuperar algunos fragmentos de datos de consumo eléctrico utilizados para el entrenamiento bajo ciertas condiciones, como en las primeras etapas del entrenamiento del modelo y cuando se elige un tamaño de lote de entrenamiento muy pequeño. Estas limitaciones hacen que sea casi imposible que un ataque de gradiente comprometa la privacidad de cualquier usuario en la práctica. Tenemos buenas razones para creer que el ataque de gradiente no es eficaz para violar la privacidad del usuario en nuestro marco propuesto. Además, consideramos innecesario utilizar cifrado o agregar ruido para evitar ataques de gradiente en el aprendizaje federado para aplicaciones NILM. Sin embargo, estudios anteriores han llegado a la conclusión opuesta. Muestran experimentalmente que el ataque de gradiente tiene una precisión de recuperación satisfactoria en las tareas de procesamiento de imágenes y sugieren que se deben tomar precauciones para prevenir el ataque de gradiente. Esto nos hace preguntarnos por qué los ataques de gradiente no funcionan bien en tareas NILM. Creemos que hay dos razones detrás de la contradicción. En primer lugar, los datos de imágenes suelen describir objetos del mundo real, que las personas entienden más fácilmente. Entonces, incluso si la precisión de los datos reconstruidos no es tan alta, aún se puede adivinar qué hay en la imagen asociando los fragmentos de imagen parcialmente recuperados con objetos conocidos del mundo real. En segundo lugar, la especificidad de las tareas de reconocimiento de imágenes, por ejemplo en las tareas de reconocimiento facial en las que cada participante posee los datos faciales de una persona, brinda al ataque de gradiente más oportunidades para robar los rasgos faciales del usuario de los datos de entrenamiento por lotes. Estas razones hacen que el ataque de gradiente represente un mayor riesgo de violación de la privacidad en conjuntos de datos de imágenes.

Este trabajo presenta nuestros resultados preliminares en la realización de un marco de aprendizaje federado híbrido independiente del modelo para aplicaciones NILM. En el futuro, nuestro objetivo es implementar un marco de aprendizaje federado de extremo a extremo que comprenda un proceso de capacitación completo desde el preprocesamiento de datos, la capacitación del modelo y la implementación. Integraremos más modelos de aprendizaje automático y más modos de aprendizaje federados en nuestro marco para manejar diversas aplicaciones de ciudades inteligentes. También optimizaremos nuestro marco de aprendizaje federado descentralizado mejorando la velocidad de convergencia de los modelos y la eficiencia general de la comunicación.

Los conjuntos de datos analizados durante el estudio actual están disponibles en el repositorio REFIT https://www.refitsmarthomes.org/datasets/.

Naciones Unidas, P. Las ciudades del mundo en 2016 (2016).

Silva, BN, Khan, M. & Han, K. Hacia ciudades inteligentes sostenibles: una revisión de tendencias, arquitecturas, componentes y desafíos abiertos en ciudades inteligentes. Sostener. Ciudades Soc. 38, 697–713 (2018).

Artículo de Google Scholar

Morstyn, T., Farrell, N., Darby, SJ y McCulloch, MD Uso de plataformas de comercio de energía entre pares para incentivar a los prosumidores a formar plantas de energía federadas. Nat. Energía 3, 94-101 (2018).

ADS del artículo Google Scholar

Luderer, G. y col. Impacto de la disminución de los costos de las energías renovables en la electrificación en escenarios de bajas emisiones. Nat. Energía 7, 32–42 (2022).

ADS del artículo Google Scholar

Li, W. y col. Sobre cómo habilitar la informática de punta sostenible con recursos de energía renovables. Comunicaciones IEEE. revista 56, 94-101 (2018).

ADS del artículo Google Scholar

Li, W. y col. Un sistema ciberfísico sostenible y consciente del comportamiento del usuario para la gestión de la energía doméstica. Transmisión ACM. Ciberfísica. Sistema. 3, 1-24 (2019).

Artículo de Google Scholar

Ehrhardt-Martínez, K. et al. Iniciativas de medición avanzada y programas de retroalimentación residencial: una metarevisión de oportunidades de ahorro de electricidad en los hogares (Consejo Estadounidense para una Economía Energéticamente Eficiente, 2010).

Gopinath, R., Kumar, M. y Srinivas, K. Redes neuronales profundas basadas en mapeo de características para el monitoreo de carga no intrusivo de electrodomésticos similares en edificios. En actas de la séptima conferencia internacional ACM sobre sistemas para edificios, ciudades y transporte energéticamente eficientes 262–265 (2020).

Kukunuri, R. et al. Edgenilm: hacia nilm en dispositivos perimetrales. En actas de la séptima conferencia internacional ACM sobre sistemas para edificios, ciudades y transporte energéticamente eficientes 90–99 (2020).

Shin, C. y col. Redes cerradas de subtareas para monitoreo de carga no intrusivo. Proc. Conferencia AAAI. Artif. Intel. 33, 1150-1157 (2019).

Google Académico

Chang, X. y col. Modelo de conjunto transferible basado en árboles para monitoreo de carga no intrusivo. Traducción IEEE. Sostener. Computadora. 7, 970–981 (2022).

Artículo de Google Scholar

Tan, D., Suvarna, M., Tan, YS, Li, J. & Wang, X. Un marco de aprendizaje automático de tres pasos para perfiles energéticos, predicción del estado de actividad y estimación de producción en procesos de fabricación inteligentes. Aplica. Energía 291, 116808 (2021).

Artículo de Google Scholar

Bonawitz, K. y col. Hacia el aprendizaje federado a escala: diseño de sistemas. Proc. Mach. Aprender. Sistema. 1, 374–388 (2019).

Google Académico

Wang, H. y col. Fed-nilm: un método de monitoreo de carga no intrusivo basado en aprendizaje federado para la protección de la privacidad. Conversaciones de energía. Economía. 3, 51–60 (2022).

Artículo de Google Scholar

Zhou, X., Feng, J., Wang, J. & Pan, J. Previsión de carga doméstica que preserva la privacidad basada en un monitoreo de carga no intrusivo: un enfoque de aprendizaje profundo federado. Computación entre pares. Ciencia. 8, e1049 (2022).

Artículo PubMed PubMed Central Google Scholar

Dai, S., Meng, F., Wang, Q. y Chen, X. Federatednilm: un marco distribuido y que preserva la privacidad para el monitoreo de carga no intrusivo basado en aprendizaje profundo federado. Preimpresión de arXiv arXiv:2108.03591 (2021).

Adabi, A., Manovi, P. & Mantey, P. Seads: una plataforma modificable para el monitoreo en tiempo real del consumo de energía de electrodomésticos. En 2015, Sexta Conferencia Internacional sobre Computación Verde y Sostenible (IGSC) 1–4 (IEEE, 2015).

Zhang, Y. et al. Fednilm: aplicación del aprendizaje federado a aplicaciones nilm en el borde. Traducción IEEE. Comunión Verde. Red.https://doi.org/10.1109/TGCN.2022.3167392 (2022).

Artículo de Google Scholar

Pan, Y., Liu, K., Shen, Z., Cai, X. y Jia, Z. Aprendizaje de secuencia a subsecuencia con gan condicional para desagregación de poder. En ICASSP 2020-2020 Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales (ICASSP) 3202–3206 (IEEE, 2020).

Zhang, C., Zhong, M., Wang, Z., Goddard, N. y Sutton, C. Aprendizaje secuencia a punto con redes neuronales para monitoreo de carga no intrusivo. En Actas de la Conferencia AAAI sobre Inteligencia Artificial, vol. 32 (2018).

Molina-Markham, A., Shenoy, P., Fu, K., Cecchet, E. & Irwin, D. Memorias privadas de un medidor inteligente. En actas del segundo taller de ACM sobre sistemas de detección integrados para la eficiencia energética en el edificio 61–66 (2010).

Shi, Y., Li, W., Chang, X. y Zomaya, AY Fugas de privacidad del usuario a partir del aprendizaje federado en aplicaciones nilm. En actas de la octava conferencia internacional ACM sobre sistemas para edificios, ciudades y transporte energéticamente eficientes 212–213 (2021).

Wang, H., Zhang, J., Lu, C. y Wu, C. Preservación de la privacidad en el monitoreo de carga no intrusivo: una perspectiva de privacidad diferencial. Traducción IEEE. Red inteligente 12, 2529–2543 (2020).

Artículo de Google Scholar

Choi, W.-S., Tomei, M., Vicarte, JRS, Hanumolu, PK y Kumar, R. Garantizar la privacidad diferencial local en sistemas de energía ultrabaja. En 2018, 45.º Simposio Internacional Anual sobre Arquitectura de Computadores (ISCA) de ACM/IEEE 561–574 (IEEE, 2018).

Sol, L. et al. Restauración óptima de la red esqueleto considerando la secuencia de arranque del generador y el arranque de carga. Traducción IEEE. Red inteligente 10, 3174–3185 (2018).

Artículo de Google Scholar

Chang, X., Li, W. y Zomaya, AY Una predicción ligera de energía fotovoltaica a corto plazo para la computación de vanguardia. Traducción IEEE. Comunión Verde. Red. 4, 946–955 (2020).

Artículo de Google Scholar

Gao, X. y col. Un algoritmo de reconocimiento de actividad humana basado en el apilamiento de autoencoder y lightgbm. Sensores 19, 947 (2019).

Artículo ADS PubMed PubMed Central Google Scholar

Liu, L. y Wang, Z. Codificación de la dinámica temporal de Markov en gráficos para visualizar y extraer series de tiempo. En talleres de la Trigésima Segunda Conferencia AAAI sobre Inteligencia Artificial (2018).

Koikkalainen, P. & Oja, E. Mapas de características jerárquicas autoorganizadas. En 1990, Conferencia conjunta internacional IJCNN sobre redes neuronales 279–284 (IEEE, 1990).

Tian, ​​Z., Zhang, R., Hou, X., Liu, J. y Ren, K. Federboost: Aprendizaje federado privado para GBDT. arXiv e-prints arXiv – 2011 (2020).

Murray, D., Stankovic, L. y Stankovic, V. Un conjunto de datos de mediciones de carga eléctrica de hogares del Reino Unido a partir de un estudio longitudinal de dos años. Ciencia. Datos 4, 1-12 (2017).

Artículo CAS Google Scholar

LeCun, Y. et al. Redes convolucionales para imágenes, discurso y series temporales. Mano. Teoría del cerebro Red neuronal. 3361, 1995 (1995).

Google Académico

Ke, G. y col. Lightgbm: un árbol de decisión que impulsa el gradiente altamente eficiente. Adv. Inf. neuronal. Proceso. Sistema. 30, 1-13 (2017).

Google Académico

Lange, H. & Bergés, M. Inferencia eficiente en fhmm de doble emisión para desagregación energética. En Talleres de la Trigésima Conferencia AAAI sobre Inteligencia Artificial (2016).

D'Incecco, M., Squartini, S. y Zhong, M. Transferir aprendizaje para el monitoreo de carga no intrusivo. Traducción IEEE. Red inteligente 11, 1419-1429 (2019).

Artículo de Google Scholar

Wang, H., Si, C. y Zhao, J. Un marco de aprendizaje federado para el monitoreo de carga no intrusivo. Preimpresión de arXiv arXiv:2104.01618 (2021).

Zhu, L. y Han, S. Fugas profundas debido a gradientes. En Aprendizaje federado 17–31 (Springer, 2020).

Kuhn, H. El método húngaro para el problema de asignación. Logística de investigación naval 52, 7–21. (Todo Acceso Abierto, Acceso Abierto Verde, 2005). https://doi.org/10.1002/nav.20053

Palensky, P. & Dietrich, D. Gestión del lado de la demanda: respuesta a la demanda, sistemas de energía inteligentes y cargas inteligentes. Traducción IEEE. Ind. Inf. 7, 381–388 (2011).

Artículo de Google Scholar

Descargar referencias

Yunchuan Shi agradece el apoyo de la beca de estipendio de investigación de la Facultad de Ingeniería de la Universidad de Sydney. El Dr. Wei Li agradece el apoyo del Consejo Australiano de Investigación (ARC) a través del premio Discovery Early Career Researcher Award (DE210100263). El profesor Zomaya y el Dr. Wei Li agradecen el apoyo de un proyecto ARC Discovery (DP200103494) y el apoyo del Centro Australia-China de Informática Energética y Tecnologías de Respuesta a la Demanda a través del Departamento de Industria, Innovación y Ciencia de Australia (ACSRIII000004). El trabajo del profesor Yang fue apoyado en parte por el Programa Nacional Clave de Investigación y Desarrollo de China (2022YFB2403800), la Fundación Nacional de Ciencias Naturales de China (61971305) y la Fundación de Ciencias Naturales de Tianjin - Programa Clave (21JCZDJC00640). El profesor Sun agradece el apoyo del Programa Nacional Clave de Investigación y Desarrollo de China (Subvención No. 2019YFB2103200).

Facultad de Ciencias de la Computación, Universidad de Sydney, Camperdown, 2006, Australia

Yunchuan Shi, Wei Li, Xiaomin Chang y Albert Y. Zomaya

Escuela de Ingeniería Eléctrica y de la Información, Universidad de Tianjin, Tianjin, 300072, China

ting yang

Escuela de ciencia y tecnología de la información, Universidad de Fudan, Shanghai, 200433, China

Yaojie Sun

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

WL y AZ supervisaron los trabajos conjuntamente. YS y XC fueron responsables del preprocesamiento de datos. YS, WL y XC diseñaron el marco de aprendizaje automático, analizaron datos y realizaron experimentos. TY e YS interpretan los resultados experimentales desde la perspectiva de la ingeniería energética. WL, YS y XC escribieron el texto principal del manuscrito. Todos los autores concibieron el proyecto y revisaron y revisaron el manuscrito.

Correspondencia a Wei Li o Albert Y. Zomaya.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Shi, Y., Li, W., Chang, X. et al. Sobre cómo permitir el monitoreo colaborativo de carga no intrusivo para ciudades inteligentes sostenibles. Representante científico 13, 6569 (2023). https://doi.org/10.1038/s41598-023-33131-0

Descargar cita

Recibido: 01 de junio de 2022

Aceptado: 07 de abril de 2023

Publicado: 21 de abril de 2023

DOI: https://doi.org/10.1038/s41598-023-33131-0

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.