在2024年,我们将看到具有高分辨率和长期连贯性的视频生成。这将需要更多的“思考” ,即系统2的推理和长远规划。
如果真是这样的话,Agent的开发会重新蓬勃发展。可以自动化工作流程、与其他Agent交互并随着时间的推移变得更好的Agent。
对标记的依赖性:尽管DeWave方法在文中声称可以在没有标记(如眼动追踪)的情况下实现脑电波到文本的翻译,但它仍然依赖于基于标记的对齐过程。
6️⃣ Sweep AI 🧹
2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。