![移动物联网智能通信与计算](https://wfqqreader-1252317822.image.myqcloud.com/cover/386/53256386/b_53256386.jpg)
上QQ阅读APP看书,第一时间看更新
2.2.3 问题公式化
在时隙 t 中,当设备 i 有任务要计算时,它可以将这些任务卸载到其他设备上,也可以在本地处理。对于任务 xi,k,平均任务执行时延可以通过式(2-3)计算
![](https://epubservercos.yuewen.com/F751DD/31729870907780206/epubprivate/OEBPS/Images/figure-0030-0080.jpg?sign=1739686805-0kxH5kKQRwHL4ODD5mCOiFaNnnhwZtnE-0-8aa0d6118e33e25d0e6b932096fb2213)
则设备 i 的平均任务完成时间为
![](https://epubservercos.yuewen.com/F751DD/31729870907780206/epubprivate/OEBPS/Images/figure-0030-0081.jpg?sign=1739686805-QTMUXlXg4uO6C8pm0dNcwbjR4JuUWMb2-0-56cb74b4067ea98c2d169063ea13180e)
其中,是算法已经运行的总时隙。每个设备的目的是最小化其平均任务完成时间,即:
![](https://epubservercos.yuewen.com/F751DD/31729870907780206/epubprivate/OEBPS/Images/figure-0030-0083.jpg?sign=1739686805-J96d5XGWgYi1iPyFYNgJG6Nbx63kPHBI-0-c26f20ce0383c74c54ad120469fc8a7c)
在这里,约束C2.1确保了任务xi,k可以直接分配设备或通过多个中继节点与设备 i建立连接。由于一个设备的任务调度决策可能受到其他设备的影响,因此需要进行一个交易过程,以实现不同设备之间的公平性。通常情况下,可以利用非合作博弈来解决上述问题[5],即所有设备都应该知道系统状态,以便做出决策。然而,在去中心化的分布式环境中,设备无法获得瞬时的系统状态。因此,本章在系统中使用了多智能体模仿学习,每个智能体不需要知道整个系统的状态,而是根据其局部观测跟随专家的演示来训练策略。