QuillAI — Evaluation Report

📋 Task Results

Dataset	Task	Status	Confidence	Findings	Figures	Corrections	Latency
breast_cancer	exploratory — medium	✅ success	87%	10	1	0	67.6s
breast_cancer	predictive — medium	⚠️ partial	82%	6	0	1	122.7s
breast_cancer	diagnostic — simple	⚠️ partial	85%	10	0	1	134.0s
breast_cancer	diagnostic — medium	✅ success	88%	10	0	0	102.1s
breast_cancer	predictive — medium (DT)	⚠️ partial	88%	5	0	1	116.5s
breast_cancer	exploratory — simple	✅ success	81%	10	1	0	101.3s
breast_cancer	comparative — medium	✅ success	75%	10	0	0	95.8s
breast_cancer	prescriptive — advanced	⚠️ partial	90%	2	0	1	87.1s
telco_churn	exploratory — medium	✅ success	74%	10	0	0	79.3s
telco_churn	exploratory — medium (sr)	✅ success	77%	10	1	0	80.2s
telco_churn	predictive — advanced	⚠️ partial	80%	2	0	1	62.2s
telco_churn	diagnostic — medium (DT)	⚠️ partial	90%	2	0	1	54.0s
telco_churn	diagnostic — medium (TC)	⚠️ partial	78%	10	0	1	73.5s
telco_churn	prescriptive — advanced	⚠️ partial	82%	10	0	1	126.9s
telco_churn	comparative — medium	✅ success	69%	5	0	0	47.5s
telco_churn	predictive — advanced (SA)	⚠️ partial	93%	5	0	2	121.8s
tips	exploratory — simple	⚠️ partial	85%	10	0	1	61.6s
tips	exploratory — medium	✅ success	83%	10	1	0	43.0s
tips	predictive — medium (clf)	⚠️ partial	90%	2	0	1	40.5s
tips	predictive — medium (reg)	❌ failed	70%	0	0	1	37.6s
tips	diagnostic — medium	✅ success	77%	10	0	0	41.8s
tips	diagnostic — simple	✅ success	78%	10	1	0	40.8s
tips	prescriptive — advanced	⚠️ partial	70%	2	0	1	41.2s
tips	comparative — medium	❌ failed	65%	0	0	1	47.3s
titanic	exploratory — medium	⚠️ partial	77%	10	1	1	84.3s
titanic	exploratory — medium (corr)	⚠️ partial	90%	1	0	1	45.4s
titanic	predictive — medium (lr)	⚠️ partial	90%	8	0	3	113.9s
titanic	predictive — medium (DT)	❌ failed	60%	0	0	1	44.6s
titanic	diagnostic — medium	⚠️ partial	81%	9	1	1	89.4s
titanic	diagnostic — advanced	⚠️ partial	82%	3	0	1	63.7s
titanic	prescriptive — advanced	⚠️ partial	86%	10	0	1	92.2s
titanic	comparative — medium	✅ success	83%	10	1	0	77.3s

🤖 QuillAI — Autonomous Agent Evaluation

📋 Task Results

📊 Generated Figures