프롬프트 API를 구현할 때는 프롬프트의 품질과 안정성을 보장하는 것이 중요합니다.
프롬프트 품질을 평가하려면 사용 사례에 대한 포괄적인 입력 및 예상 출력을 개발해야 합니다.
각 Gemini Nano 모델 버전에서 프롬프트가 품질 기준을 충족하는지 평가하려면 다음 워크플로를 사용하는 것이 좋습니다.
- 평가 데이터 세트를 실행하고 출력을 기록합니다.
- 수동으로 결과를 평가하거나 LLM-as-a-judge를 사용합니다.
- 평가가 품질 기준을 충족하지 않으면 프롬프트를 반복합니다. 예를 들어 Gemini Pro와 같은 더 강력한 LLM에 원하는 출력과 실제 출력을 기반으로 프롬프트를 개선해 달라고 요청합니다.
프롬프트 엔지니어링은 작업 성능을 향상시키며 프롬프트를 반복하는 것이 중요합니다. 위 단계를 3~5회 이상 반복하는 것이 좋습니다. 최적화는 결국 수익이 감소하므로 이 접근 방식에는 한계가 있습니다.
또는 대규모로 프롬프트를 빠르게 개선하려면 gemma-3n-e4b-it와 같은 온디바이스 모델을 타겟팅할 수 있는 데이터 기반 옵티마이저를 사용하면 됩니다.
안전
Gemini Nano가 사용자에게 안전한 결과를 반환하도록 하기 위해 유해하거나 의도치 않은 결과를 제한하는 여러 보호 계층이 구현됩니다.
- 기본 모델 안전성: Gemini Nano를 비롯한 모든 Gemini 모델은 처음부터 안전성을 인식하도록 학습됩니다. 즉, 안전 고려사항이 사후에 추가되는 것이 아니라 모델의 핵심에 내장되어 있습니다.
- 입력 및 출력의 안전 필터: Gemini Nano 런타임에서 생성된 입력 프롬프트와 결과는 앱에 결과를 제공하기 전에 Google의 안전 필터를 기준으로 평가됩니다. 이를 통해 품질 저하 없이 안전하지 않은 콘텐츠가 누락되지 않도록 할 수 있습니다.
하지만 앱마다 사용자에게 안전한 콘텐츠로 간주되는 기준이 다르므로 앱의 특정 사용 사례에 대한 안전 위험을 평가하고 그에 따라 테스트해야 합니다.
추가 리소스
- AI의 성능은 어느 정도인가요? 모든 단계에서 생성형 AI 평가, 설명 - 생성형 AI 평가 서비스를 사용하는 방법을 설명하는 블로그 게시물입니다.
- 생성형 AI 평가 서비스 개요 - 모델 비교, 프롬프트 개선, 미세 조정과 같은 작업을 지원하기 위해 생성형 AI 모델을 평가하는 방법을 설명하는 문서입니다.
- 계산 기반 평가 파이프라인 실행 - 모델 성능 평가 방법에 관한 문서입니다.