📝 评估
为什么要评估模型?
认识一下Alex,一位在中型公司工作的机器学习工程师。Alex知道市面上有很多AI模型——GPT、LLaMA等等——但哪一个最适合手头的工作呢?它们在纸面上听起来都很令人印象深刻,但Alex不能仅依赖公共排行榜。这些模型在不同的环境下表现不同,有些模型可能已经在评估数据集上训练过(狡猾!)。此外,这些模型的写作 方式有时会让人感觉……有些别扭。
这就是Open WebUI发挥作用的地方。它为Alex和他们的团队提供了一种基于实际需求评估模型的简单方法。没有复杂的数学运算。没有繁重的工作。只需在与模型交互时给出赞成或反对的评价。
简要总结
- 为什么评估很重要:模型太多了,但并非所有模型都适合您的特定需求。通用的公共排行榜并不总是可信的。
- 如何解决:Open WebUI提供内置的评估系统。使用点赞/点踩来评价模型回复。
- 幕后发生的事情:评分会调整您的个性化排行榜,被评分聊天的快照将用于未来的模型微调!
- 评估选项:
- 竞技场模式:随机选择模型供您比较。
- 正常交互:像平常一样聊天并评价回复。
为什么公共评估不够?
- 公共排行榜不是专门为您的特定用例量身定制的。
- 有些模型在评估数据集上训练过,影响了结果的公平性。
- 一个模型可能整体表现良好,但其沟通风格或回复就是不符合您想要的"氛围"。
解决方案:使用Open WebUI进行个性化评估
Open WebUI具有内置的评估功能,让您和您的团队在与模型交互的同时,发现最适合您特定需求的模型。
它是如何工作的?很简单!
- 在聊天过程中,如果您喜欢一个回复就点赞,如果不喜欢就点踩。如果消息有兄弟消息(如重新生成的回复或并排模型比较的一部分),您就在为您的个人排行榜做出贡献。
- 排行榜在管理部分很容易访问,帮助您跟踪哪些模型根据您团队的标准表现最佳。
一个很酷的功能?每当您对回复进行评分时,系统会捕获该对话的快照,这些快照稍后将用于改进模型甚至为未来的模型训练提供动力。(请注意,这仍在开发中!)
评估AI模型的两种方式
Open WebUI提供两种直接的AI模型评估方法。
1. 竞技场模式
竞技场模式从可用模型池中随机选择,确保评估公平无偏。这有助于消除手动比较中的潜在缺陷:生态有效性 - 确保您不会有意或无意地偏向某个模型。
使用方法:
- 从竞技场模式选择器中选择一个模型。
- 像平常一样使用它,但现在您处于"竞技场模式"。
要让您的反馈影响排行榜,您需要所谓的兄弟消息。什么是兄弟消息?兄弟消息就是由同一查询生成的任何替代回复(想想消息重新生成或让多个模型并排生成回复)。这样,您就在正面比较回复。
- 评分提示:当您为一个回复点赞时,另一个会自动获得点踩。所以,要小心,只为您真正认为最好的消息点赞!
- 一旦您评价了回复,您可以查看排行榜,看看模型们的表现如何。
这里是竞技场模式界面的工作方式预览:
需要更深入?您甚至可以复制聊天机器人竞技场风格的设置!
2. 正常交互
如果您不想切换到"竞技场模式",无需担心。您可以正常使用Open WebUI并像在日常操作中一样评价AI模型回复。随时对模型回复点赞/点踩即可。但是,如果您希望您的反馈用于排行榜排名,您需要更换模型并与不同的模型交互。这确保有兄弟回复进行比较 - 只有两个不同模型之间的比较才会影响排名。
例如,这是您在正常交互中如何评分: