Evaluation

Evaluation #

https://python.langchain.com/docs/concepts/#evaluation

评估是评定基于LLM的应用程序性能和效果的过程。它包括根据一组预定义的标准或基准测试模型的响应,以确保其达到预期的质量标准并实现预定目标。这个过程对于构建可靠的应用程序至关重要。

langsmith-evaluate.png

LangSmith通过以下几种方式帮助完成这一过程:

  • 通过其跟踪和注释功能,简化了数据集的创建和管理
  • 提供一个评估框架,帮助你定义指标并在数据集上运行应用程序
  • 允许你跟踪结果随时间的变化,并自动定期运行评估程序或将其作为CI/Code的一部分

想了解更多,请查看这份LangSmith指南

© 2024 青蛙小白
comments powered by Disqus