BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

离策略学习

一种学习方法，智能体在学习最优策略的同时遵循另一种行为策略，从而实现更好的探索。

目标网络

具有缓慢更新权重的复制神经网络，通过提供更一致的目标来稳定学习过程。

奥恩斯坦-乌伦贝克过程

用于生成动作中时间相关噪声的随机过程，促进在连续空间中的有效探索。

连续动作空间

动作可以取连续区间内任意值的环境，与离散动作不同，需要相适应的算法。

神经网络函数逼近

使用神经网络来近似强化学习中的复杂函数，如策略函数或值函数。

软更新

使用tau(τ)系数缓慢混合主要网络和目标网络权重的渐进式目标网络更新方法。

行动者网络

学习将状态直接映射到连续动作空间中最优动作的神经网络。

确定性策略

为每个状态关联一个特定动作的策略，与返回概率分布的随机策略相反。

动作噪声

在训练过程中添加到演员产生的动作中的噪声，以鼓励对连续动作空间的探索

🔍

搵唔到結果