Thuật toán & dữ liệu
Tài liệu kỹ thuật chi tiết về cách hệ thống phân tích kết quả, dự đoán điểm, suy luận RIASEC và gợi ý nguyện vọng từ dữ liệu điểm chuẩn 2025.
Các trang liên quan
1. Luồng dữ liệu đầu-cuối
Bước 1 - Thu thập dữ liệu bài thi: hệ thống lấy các phiên làm bài thực tế của học sinh; bài luyện tập tự do không được dùng cho dự đoán tuyển sinh.
Bước 2 - Suy ra khối thi: nếu học sinh chưa chọn khối, hệ thống tự đề xuất khối tối ưu từ hiệu suất các môn.
Bước 3 - Dự đoán điểm: tính điểm dự đoán từng môn, tổng điểm và cộng điểm ưu tiên khu vực (nếu có), sau đó lưu cache 7 ngày.
Bước 4 - Suy luận RIASEC: kết hợp điểm môn + hành vi làm bài + (placeholder) loại câu hỏi, sau đó lưu cache 7 ngày.
Bước 5 - Gợi ý trường: dùng dữ liệu điểm chuẩn 2025, phân tier Reach/Match/Safety, và cache 24 giờ theo bộ tiêu chí người dùng.
2. Phân tích kết quả học tập (/analytics)
Truy cập
Dữ liệu phân tích đi qua pipeline: lọc phiên hoàn thành → tổng quan → phân tích theo môn → phân tích độ khó → xu hướng → gợi ý.
Công thức chính: averageScore = totalCorrect / totalPossible * 100, completionRate = completedSessions / allSessions * 100.
Ngưỡng xu hướng: so sánh trung bình 5 bài gần nhất với 5 bài trước đó. Nếu chênh lệch > 5% là cải thiện, < -5% là giảm, còn lại là ổn định.
Đầu ra: overview, recentActivity, subjectPerformance, difficultyAnalysis, trends, recommendations, aiInsights.
3. Dự đoán điểm từng môn (linear model)
Truy cập
Hệ thống lấy tối đa 10 bài đã hoàn thành gần nhất cho từng môn.
Đặc trưng đang dùng: avgRecentScore (trung bình tối đa 4 bài gần nhất, thang 0-10) và improvementTrend (nửa mới - nửa cũ).
Công thức khi đủ dữ liệu (>=5 bài): predicted = 0.9 * avgRecentScore + 0.3 * improvementTrend, sau đó clamp về [0,10] và làm tròn 1 chữ số.
Khi thiếu dữ liệu (<5 bài): predicted = currentScore + improvementTrend * 0.5. Độ tin cậy thấp hơn.
Độ tin cậy: 50-60% (ít bài), tăng dần đến 95% khi số bài >= 10. API không trả dự đoán nếu chưa đủ ngưỡng tối thiểu của model.
Cache: 7 ngày cho kết quả dự đoán điểm.
4. Suy luận RIASEC
Hệ thống suy luận từ 3 nguồn:
(a) Theo môn học: map môn sang 6 nhóm R/I/A/S/E/C (ví dụ Toán → I/E/C; Lý/Hóa → I/R; Văn → A/S/E), sau đó chuẩn hóa điểm từng nhóm về thang 0-10.
(b) Theo hành vi làm bài: dùng chỉ số thời gian/câu, tần suất đổi đáp án, revisit, rush, wpm, backspace. Chỉ kích hoạt khi có ít nhất 3 bài hoàn thành.
(c) Theo loại câu hỏi: hiện là placeholder trung tính (điểm 5 cho mọi nhóm khi có behavior mode).
Trọng số kết hợp: 0.5 * subject + 0.3 * behavior + 0.2 * questionType. Nếu thiếu dữ liệu hành vi thì chỉ dùng subject-based.
Đầu ra: primary/secondary/tertiary type, điểm 6 nhóm và mô tả tiếng Việt; cache 7 ngày.
5. Gợi ý trường từ điểm chuẩn 2025
Truy cập
Hệ thống dùng dữ liệu điểm chuẩn thật năm 2025, không sinh điểm chuẩn bằng LLM.
Bộ lọc đầu vào: khối thi, khu vực, ngành quan tâm, năm 2025, phương thức THPT.
Score gap: gap = studentScore - cutoffScore.
Tier: Reach nếu gap < -2, Match nếu -2 đến 1.5, Safety nếu > 1.5. Xác suất đỗ được nội suy theo từng tier bằng hàm piecewise trong recommender.
Cân bằng danh sách: sau khi xếp hạng, hệ thống phân phối mục tiêu gần 25% Reach, 35% Match, phần còn lại Safety (theo giới hạn tối đa danh sách).
Cache: 24 giờ theo bộ tiêu chí người dùng.
6. Dữ liệu điểm chuẩn 2025
Dữ liệu nguồn import từ file điểm chuẩn 2025, sau đó chuẩn hóa và lưu vào hệ thống dữ liệu tuyển sinh.
Nguồn dữ liệu: Bộ dữ liệu điểm chuẩn đại học Việt Nam 2025 (Kaggle)
Các cột dùng trực tiếp cho gợi ý: trường, ngành, khối, điểm quy đổi thang 30, khu vực, nhóm ngành chuẩn hóa và các môn thành phần.
Trong bước deduplicate, hệ thống giữ 1 bản ghi cho mỗi (trường, ngành, khối) theo chiến lược trong recommender để tránh trùng lặp danh sách đầu ra.
