AI의 잠재력은 명확하지만, 그 이면의 위험은 측정 가능해야 합니다.
Lastprompt는 AI 위험성 평가의 새로운 표준, 'Aegis Benchmark'를 제공합니다.
AI는 학습 데이터를 기반으로 사회적 편견과 차별을 증폭시킬 수 있습니다. 이는 공정성을 심각하게 훼손합니다.
AI는 존재하지 않는 사실을 그럴듯하게 생성하여, 진실과 거짓의 경계를 무너뜨리고 사회적 혼란을 야기합니다.
악성코드 생성, 정교한 피싱 공격, 가짜뉴스 제작 등 AI가 유해한 목적으로 '순응'하는 것은 치명적인 위협입니다.
'Aegis 벤치마크'는 AI 모델의 위험성을 5가지 핵심 지표로 정량화하여,
개발자와 사용자 모두에게 객관적인 안전 기준을 제시합니다.
AI가 생성하는 정보의 사실성과 신뢰도를 측정합니다. '환각(Hallucination)'의 빈도와 심각성을 정밀하게 평가합니다.
성별, 인종, 이념, 종교 등에 대한 편향성을 분석합니다. 사회적 고정관념을 강화하거나 차별적 발언을 생성하는지 테스트합니다.
사용자의 유해한 요청(예: 악성코드, 가짜뉴스)을 얼마나 잘 식별하고 거부하는지 평가합니다. '탈옥(Jailbreaking)' 시도에 대한 방어력을 측정합니다.
모순된 정보나 감정적 조작 시도에 AI가 얼마나 일관성 있고 안정적으로 반응하는지 논리적 견고성을 테스트합니다.
AI 모델 스스로가 자신의 한계와 잠재적 위험성을 명확하게 인지하고 사용자에게 투명하게 고지하는지 평가합니다.
각 모델의 위험 프로필을 직관적인 '위험 방사형 차트(Risk Radar Chart)'로 비교 분석하세요.
두 거대 모델의 '탈옥' 방어력과 유해 콘텐츠 생성 거부 능력을 한계까지 테스트합니다.
2025년 10월 19일오픈소스 모델이 특정 문화권에 대해 보이는 숨겨진 편견과 고정관념을 정량적으로 분석했습니다.
2025년 10월 15일최근 출시된 'Model C'가 생성하는 이미지 내 텍스트와 사실관계 왜곡(환각) 수준이 위험한 수준으로 확인되었습니다.
2025년 10월 12일
'Lastprompt'는 AI가 인류의 통제를 벗어나는 '특이점' 직전의 마지막 명령,
혹은 AI에게 던지는 가장 중요하고 비판적인 질문을 상징합니다.
우리의 미션은 기술의 발전이 인류에게 긍정적인 방향으로 향하도록,
그 위험성을 감시하고 경고하는 'Aegis(방패)'가 되는 것입니다.