
Testowanie agentów Conversational AI
Dowiedz się, jak skutecznie testować i ulepszać agentów Conversational AI, używając solidnych kryteriów oceny i symulacji rozmów.
Kiedy konwersacyjne
Te pytania kształtowały naszą pracę nad El, Alexis, Conversational AI. W miarę rozwoju El stworzyliśmy system monitorowania, oceny i testowania agentów, oparty na kryteriach oceny i symulacjach rozmów.
Podstawy: Wiarygodne Kryteria Oceny
Poprawa działania agenta zaczyna się od zrozumienia jego zachowania w praktyce. Oznaczało to dopracowanie naszych kryteriów oceny i upewnienie się, że są wystarczająco dokładne i wiarygodne, aby monitorować wydajność agenta. Definiujemy nieudaną rozmowę jako taką, w której agent podaje błędne informacje lub nie pomaga użytkownikowi osiągnąć celu.

Opracowaliśmy następujące Kryteria Oceny:
- Interakcja: czy to była ważna rozmowa, czy użytkownik zadawał istotne pytania, czy rozmowa miała sens?
- Pozytywna interakcja: czy użytkownik był zadowolony, czy może był zdezorientowany lub sfrustrowany?
- Zrozumienie przyczyny: czy agent poprawnie zidentyfikował podstawowy problem użytkownika?
- Rozwiązanie zapytania użytkownika: czy agent rozwiązał problem użytkownika lub zaproponował alternatywną metodę wsparcia?
- Halucynacja: czy agent wymyślił informacje, które nie znajdują się w bazie wiedzy?
Jeśli Interakcja zawiedzie, sama rozmowa nie jest ważna. Jeśli jakiekolwiek inne kryteria zawiodą, badamy to dalej. Dochodzenie wskazuje, jak poprawić agenta. Czasami chodzi o dopracowanie użycia narzędzi lub czasu. Innym razem o dodanie zabezpieczeń, aby zapobiec nieobsługiwanym działaniom.
Iteracja z pewnością: API Symulacji Rozmów
Gdy już zidentyfikujemy, co poprawić, następnym krokiem jest testowanie. Tutaj wkracza nasze API Symulacji Rozmów symuluje realistyczne scenariusze użytkownika - zarówno end-to-end, jak i w wybranych segmentach - i automatycznie ocenia wyniki według tych samych kryteriów, które stosujemy w produkcji. Obsługuje symulację narzędzi i niestandardową ocenę, co czyni go wystarczająco elastycznym do testowania specyficznych zachowań.
Używamy dwóch podejść:
- Pełne symulacje: Testuj całe rozmowy od początku do końca.
- Częściowe symulacje: Rozpocznij w środku rozmowy, aby sprawdzić punkty decyzyjne lub podprocesy. To nasza metoda do testów jednostkowych, umożliwiająca szybkie iteracje i ukierunkowane debugowanie.
Jasne, skoncentrowane scenariusze pozwalają nam kontrolować, co jest testowane w LLM, zapewniając pokrycie przypadków brzegowych, użycia narzędzi i logiki awaryjnej.
Automatyzacja na dużą skalę: Wbudowanie testów w CI/CD
Ostatnim elementem jest automatyzacja. Użyliśmy otwartych API ElevenLabs, aby połączyć się z naszym przepływem GitHub DevOps, wbudowując ocenę i symulację w nasz pipeline CI/CD. Każda aktualizacja jest automatycznie testowana przed wdrożeniem. To zapobiega regresjom i daje nam szybki feedback na temat wydajności w rzeczywistych warunkach.
Rezultaty: Silniejszy, mądrzejszy El
Ten proces zmienił sposób, w jaki budujemy i utrzymujemy El. Stworzyliśmy pętlę zwrotną, która łączy rzeczywiste użycie z oceną, testowaniem i automatyczną walidacją, co pozwala nam szybciej wprowadzać ulepszenia z większą pewnością.
I to jest ramy, które możemy teraz zastosować do każdego
Przeglądaj artykuły zespołu ElevenLabs


Integrating external agents with ElevenLabs Agents' voice orchestration
Patterns for integrating ElevenLabs voice orchestration with complex and stateful agents

.webp&w=3840&q=95)
.webp&w=3840&q=95)