📝 评估

为什么要评估模型？

认识一下Alex，一位在中型公司工作的机器学习工程师。Alex知道市面上有很多AI模型——GPT、LLaMA等等——但哪一个最适合手头的工作呢？它们在纸面上听起来都很令人印象深刻，但Alex不能仅依赖公共排行榜。这些模型在不同的环境下表现不同，有些模型可能已经在评估数据集上训练过（狡猾！）。此外，这些模型的写作方式有时会让人感觉……有些别扭。

这就是Open WebUI发挥作用的地方。它为Alex和他们的团队提供了一种基于实际需求评估模型的简单方法。没有复杂的数学运算。没有繁重的工作。只需在与模型交互时给出赞成或反对的评价。

简要总结

为什么评估很重要：模型太多了，但并非所有模型都适合您的特定需求。通用的公共排行榜并不总是可信的。
如何解决：Open WebUI提供内置的评估系统。使用点赞/点踩来评价模型回复。
幕后发生的事情：评分会调整您的个性化排行榜，被评分聊天的快照将用于未来的模型微调！
评估选项：
- 竞技场模式：随机选择模型供您比较。
- 正常交互：像平常一样聊天并评价回复。

为什么公共评估不够？

公共排行榜不是专门为您的特定用例量身定制的。
有些模型在评估数据集上训练过，影响了结果的公平性。
一个模型可能整体表现良好，但其沟通风格或回复就是不符合您想要的"氛围"。

解决方案：使用Open WebUI进行个性化评估

Open WebUI具有内置的评估功能，让您和您的团队在与模型交互的同时，发现最适合您特定需求的模型。

它是如何工作的？很简单！

在聊天过程中，如果您喜欢一个回复就点赞，如果不喜欢就点踩。如果消息有兄弟消息（如重新生成的回复或并排模型比较的一部分），您就在为您的个人排行榜做出贡献。
排行榜在管理部分很容易访问，帮助您跟踪哪些模型根据您团队的标准表现最佳。

一个很酷的功能？每当您对回复进行评分时，系统会捕获该对话的快照，这些快照稍后将用于改进模型甚至为未来的模型训练提供动力。（请注意，这仍在开发中！）

评估AI模型的两种方式

Open WebUI提供两种直接的AI模型评估方法。

1. 竞技场模式

竞技场模式从可用模型池中随机选择，确保评估公平无偏。这有助于消除手动比较中的潜在缺陷：生态有效性 - 确保您不会有意或无意地偏向某个模型。

使用方法：

从竞技场模式选择器中选择一个模型。
像平常一样使用它，但现在您处于"竞技场模式"。

要让您的反馈影响排行榜，您需要所谓的兄弟消息。什么是兄弟消息？兄弟消息就是由同一查询生成的任何替代回复（想想消息重新生成或让多个模型并排生成回复）。这样，您就在正面比较回复。

评分提示：当您为一个回复点赞时，另一个会自动获得点踩。所以，要小心，只为您真正认为最好的消息点赞！
一旦您评价了回复，您可以查看排行榜，看看模型们的表现如何。

这里是竞技场模式界面的工作方式预览：

竞技场模式示例

需要更深入？您甚至可以复制聊天机器人竞技场风格的设置！

聊天机器人竞技场示例

2. 正常交互

如果您不想切换到"竞技场模式"，无需担心。您可以正常使用Open WebUI并像在日常操作中一样评价AI模型回复。随时对模型回复点赞/点踩即可。但是，如果您希望您的反馈用于排行榜排名，您需要更换模型并与不同的模型交互。这确保有兄弟回复进行比较 - 只有两个不同模型之间的比较才会影响排名。

例如，这是您在正常交互中如何评分：

��正常模型评分界面

这是设置多模型比较的示例，类似于竞技场：

多模型比较

排行榜

评分后，在管理面板下查看排行榜。在这里您将可视化地看到模型的表现，使用Elo评分系统进行排名（想想国际象棋排名！）您将获得哪些模型在评估中真正突出的真实视图。

这是排行榜布局的示例：

排行榜示例

基于话题的重新排名

当您评价聊天时，您可以按话题标记它们以获得更细粒度的见解。如果您在不同领域工作，如客户服务、创意写作、技术支持等，这特别有用。

自动标记

Open WebUI尝试根据对话话题自动标记聊天。但是，根据您使用的模型，自动标记功能可能有时会失败或误解对话。当这种情况发生时，最佳做法是手动标记您的聊天以确保反馈准确。

如何手动标记：当您评价回复时，您将有机会根据对话的上下文添加自己的标签。

不要跳过这个！标记非常强大，因为它允许您基于特定话题重新排名模型。例如，您可能想看看哪个模型在回答技术支持问题与一般客户询问方面表现最佳。

这是重新排名外观的示例：

按话题重新排名排行榜

附注：用于模型微调的聊天快照

每当您评价模型的回复时，Open WebUI 捕获该聊天的快照。这些快照最终可以用于微调您自己的模型 - 所以您的评估为AI的持续改进提供了支持。

（请关注此功能的更多更新，正在积极开发中！）

总结

简而言之，Open WebUI的评估系统有两个明确的目标：

帮助您轻松比较模型。
最终，找到最符合您个人需求的模型。

系统的核心是让AI模型评估对每个用户来说都是简单、透明和可定制的。无论是通过竞技场模式还是正常聊天交互，您完全控制着确定哪个AI模型最适合您的特定用例！

一如既往，您的所有数据都安全地保留在您的实例上，除非您特别选择参与社区分享，否则不会共享任何内容。您的隐私和数据自主权始终是优先考虑的。

为什么要评估模型？​

简要总结​

为什么公共评估不够？​

解决方案：使用Open WebUI进行个性化评估​

评估AI模型的两种方式​

1. 竞技场模式​

2. 正常交互​

排行榜​

基于话题的重新排名​

自动标记​

附注：用于模型微调的聊天快照​

总结​