SKKN Sử dụng thuật toán phân lớp cây quyết định để tư vấn định hướng nghề nghiệp cho học sinh Trung học Phổ thông

Phân lớp dữ liệu

Trong quá trình hoạt động, con người sản sinh ra nhiều tập dữ liệu. Các tập

dữ liệu được tích lũy có kích thước ngày càng lớn, và có thể chứa nhiều thông tin

với những quy luật chưa được khám phá. Chính vì vậy, một nhu cầu đặt ra là cần

tìm cách trích lọc từ tập dữ liệu đã có đó thành các luật. PLDL là tiến trình khám

phá các luật đặc trưng hay phân loại cho các tập dữ liệu đã được xếp lớp. Tập dữ

liệu học bao gồm tập các đối tượng đã được xác định lớp sẽ được sử dụng để tạo

mô hình phân lớp dựa trên các đặc trưng của đối tượng trên tập dữ liệu học. Các

luật phân lớp sẽ được sử dụng để xây dựng các bộ PLDL. Công nghệ PLDL đã,

đang và sẽ phát triển mạnh mẽ trước những khao khát tri thức của con người, có

vai trò quan trọng trong tiến trình dự đoán các khuynh hướng, quy luật phát triển

cho các hoạt động thực tiễn, cũng như phục vụ đắc lực cho quá trình nghiên cứu

khoa học.

PLDL là một quá trình gồm:

- Bước học (Xây dựng trên một mô hình phân lớp).

- Bước phân lớp (mô hình vừa xây dựng được sử dụng để dự đoán nhãn cho

những lớp dữ liệu nào đó) Ở bước học/huấn luyện, ta xây dựng mô hình phân lớp mô tả bộ xác định

các lớp dữ liệu hoặc khái niệm. Ở bước này một thuật toán phân lớp xây dựng trên

mô hình phân lớp bằng cách phân tích một tập huấn luyện hình thành từ bản ghi

trong CSDL và các nhãn lớp liên kết giữa chúng. Mỗi bản ghi X được biểu diễn

một vector thuộc tính gồm n – chiều, X=(x1, x2, , xn), mô tả n giá trị đo đã thực

hiện trên bản ghi đó từ n thuộc tính tương ứng của CSDL A1, A2, , An. Mỗi bản

ghi X được giả định thuộc về một lớp được quy định trước, như được xác định bởi

thuộc tính khác của CSDL gọi là thuộc tính nhãn lớp.

Thuộc tính nhãn lớp này có giá trị rời rạc và không có thứ tự. Nó có tính

phân loại ở chỗ mỗi giá trị của nó đóng vai trò một loại hoặc lớp. Các bản ghi riêng

tạo thành tập huấn luyện được gọi là bản ghi huấn luyện và được lấy mẫu ngẫu

nhiên từ CSDL đang phân tích. Trong ngữ cảnh phân lớp, các bản ghi CSDL có thể

được gọi tuỳ tài liệu như ví dụ, thể hiện, điểm dữ liệu, mẫu hoặc đối tượng.

Do nhãn lớp của mỗi bản ghi huấn luyện đều được cấp sẵn nên bước này gọi

là học có giám sát, có nghĩa là việc học của mô hình phân lớp là có giám sát ở chỗ

nó được cho biết là mỗi bản ghi huấn luyện thuộc về lớp nào. Nó trái ngược với

học không giám sát, trong đó ta không biết nhãn lớp của mỗi bản ghi huấn luyện và

có thể cả số lượng hoặc tập hợp các lớp cần học nữa.

pdf40 trang | Chia sẻ: thuydung3ka2 | Ngày: 04/03/2022 | Lượt xem: 816 | Lượt tải: 2Download
Bạn đang xem 20 trang mẫu của tài liệu "SKKN Sử dụng thuật toán phân lớp cây quyết định để tư vấn định hướng nghề nghiệp cho học sinh Trung học Phổ thông", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
uộc tính A. 
 - Sv là tập con của tập S mà A nhận giá trị v. 
Lấy ví dụ với thuộc tính A = TD, ta có Value(A) = {Hơi tốt, Tốt, Rất tốt}, và 
SHơi tốt = [2+,3−] như đã tính ở trên 
Từ công thức, dễ dàng tính được: 
Gain(S,TD)=Entropy([9+,5−])−∑
│𝑆𝑣│
14𝑣∈𝑉𝑎𝑙𝑢𝑒(𝑇𝐷)
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑣)=0.246 
Tương tự, ta tính được Information Gain cho 3 thuộc tính còn lại: 
Gain(S,SK)=0.029 
Gain(S,GL)=0.152 
Gain(S,CT)=0.048 
Thuộc tính TD có Information Gain cao nhất, chọn nó làm nút gốc. 
15 
Xây dựng tiếp cây quyết định: 
Sau khi chọn được nút gốc là TD, tiếp theo ta tính tiếp các nút tại mỗi thuộc tính 
của nút vừa chọn. Trong hình 2.2: 
• Nhánh bên trái cùng ứng với TD = Hơi tốt, có SHơi tốt là [2+,3−] chưa phân 
lớp hoàn toàn nên vẫn phải tính toán chọn nút tại đây. Tương tự cho nhánh 
phải cùng. 
• Nhánh ở giữa ứng với TD = Tốt, tập dữ liệu tại nhánh này đã hoàn toàn phân 
lớp dương với 4+ và 0−. Tại đây đã có thể quyết định, khi TD= Tốt thì có 
thể nghề CABĐ. 
Ta sẽ thực hiện tính toán với nhánh trái cùng, trên tập SHơi tốt=[2+,3−]. 
Tương tự như cách tìm nút gốc, ta tính Information Gain cho 3 thuộc tính còn lại 
là SK, GL và CT (trên tập SHơi tốt ). 
Xét thuộc tính GL, có: 
• SKhông: [2+,0−] (Nghĩa là tại những dữ liệu có TD = Tốt và GL= Không, có 2 
dữ liệu, tất cả đều cho kết quả CABĐ). 
• SCó: [0,3−]. 
Từ đó: 
• Gain(SHơitốt, GL)= 0.971 
• Thực hiện tương tự ta có: 
• Gain(SHơi tốt ,SK)=0.571 
• Gain(SHơi tốt ,CT)=0.019 
• Nhận thấy thuộc tính GL có Information Gain cao nhất, chọn thuộc tính này 
làm nút cho nhánh trái cùng 
? ? 
CABĐ 
Hơi tốt Tốt Rất tốt 
[2+,3−] 
[4+, 0−] [3+, 2−] 
Hình 2.2: Cây quyết định khi chọn nút gốc 
TD 
16 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
Cây quyết định hoàn chỉnh: 
• Làm tương tự cho nút tại nhánh phải ngoài (đến khi tất cả các nút lá của cây 
đều đã phân lớp), ta được cây quyết định hoàn chỉnh như sau: 
TD 
GL CABĐ ? 
[2+, 3−] [4+, 0−] [3+, 2−] 
CABĐ 
[2+, 0−] 
GV 
[0+, 3−] 
Hơi tốt 
Tốt 
Rất tốt 
Không Có 
Hình 2.3: Cây quyết định sau khi chọn cho nhánh trái cùng 
 TD 
GL 
CT CABĐ 
CABĐ GV 
CABĐ GV 
[2+, 3−] [4+, 0−] 
[3+, 2 −] 
[2+, 0−] [0+, 3−] 
[3+, 0−] [0+, 2−] 
Hơi tốt Tốt Rất tốt 
Không 
Có Thích Rất thích 
Hình 2.4: Cây quyết định hoàn chỉnh 
17 
CHƯƠNG III. THỰC NGHIỆM SƯ PHẠM 
3.1. Môi trường thực nghiệm WEKA 
Weka là một công cụ hỗ trợ khai phá dữ liệu khá nổi tiếng, được xây dựng và phát 
triển từ trường đại học Waikato, New Zealand bằng ngôn ngữ Java. Weka là phần 
mềm tự do phát hành theo giấy phép công cộng GNU. 
Weka chứa một tập các công cụ mô hình và thuật toán cho việc phân tích dữ 
liệu và mô hình dự đoán, cùng với giao diện đồ họa cho người sử dụng dễ dàng 
truy cập vào các chức năng. Weka được sử dụng cho nhiều ứng dụng khác nhau, 
phục vụ cho mục đích nghiên cứu. 
Phần mềm Weka gồm nhiều ứng dụng và công cụ như là: 
Có các ứng dụng trên hình 3.1: 
- Explorer: Lựa chọn dữ liệu và thực hiện khai phá dữ liệu với các thuật toán 
cơ bản trong khai phá dữ liệu 
 - Experimenter: Môi trường thử nghiệm 
 - Simple CLI: Cung cấp một giao diện dòng lệnh đơn giản cho phép thực 
hiện các lệnh Weka, dành cho các máy tính mà hệ điều hành không cung cấp giao 
Hình 3.1: Phần mềm Weka phiên bản 3.9.0 
18 
diện GUI. 
Tất cả các kỹ thuật của Weka được xây dựng dựa trên các giả định là dữ liệu 
đơn hoặc là dữ liệu quan hệ, khi mỗi điểm dữ liệu được miêu tả bởi một số xác 
định các thuộc tính (thông thường, là dạng liên tục hoặc các thuộc tính được chuẩn 
hóa, một vài dạng thuộc tính khác cũng được hỗ trợ). 
Weka cung cấp cách truy cập cơ sở dữ liệu bằng các sử dụng kết nối Java 
Database Connectivity (JDBC) và có thể xử lý kết quả trả về bởi một truy vấn cơ 
sở dữ liệu. 
Weka hỗ trợ 4 chế độ kiểm thử: 
- Use Training Set (Sử dụng tập huấn luyện): đánh giá khả năng dự đoán lớp 
của các mẫu được huấn luyện. 
- Supplied Test Set (Tập hỗ trợ kiểm thử): đánh giá khả năng dự đoán lớp của 
một tập kiểm tra có đầy đủ giá trị thuộc tính Out – put 
- Cross – Validation (Đánh giá chéo). 
- Percentage Split (Tách theo tỷ lệ): Chia tập dataset theo tỷ lệ quy định trước 
về số mẫu học, số mẫu kiểm tra. 
Những ưu điểm của Weka: 
- Miễn phí cho người sử dụng; 
- Hỗ trợ trên nhiều nền tảng hệ điều hành; 
- Là một tập hợp xử lý DL và kỹ thuật mô hình; 
- Hỗ trợ đồ hoạ; 
3.2. Phương pháp thực nghiệm 
Tất cả các đối tượng được khảo sát với các mỗi câu hỏi được phân thành 
các mức độ tương ứng như sau: 
Không tốt: 1 Hơi tốt: 2 Tốt: 3 Rất tốt: 4 
Không cần: 1 Ít cần: 2 Cần thiết: 3 Rất cần: 4 
Không thích: 1 Hơi thích:2 Thích: 3 Rất thích:4 
Không tốt lắm: 1 Hơi tốt: 2 Tốt: 3 Rất tốt: 4 
Không nhiều: 1 Hơi nhiều: 2 Tương đối: 3 Rất nhiều: 4 
Không tốt lắm: 1 Khá tốt: 2 Tốt: 3 Rất tốt: 4 
Bảng ví dụ phân cấp mức độ trong từng câu hỏi 
19 
Dữ liệu sau khi được phân loại theo mức độ tương ứng ở mỗi câu hỏi sẽ 
được nhập vào tệp *.XLS, hoặc *. XLSX chạy được từ phần mềm ứng dụng Ms 
Excel. 
Ta sẽ sử dụng CSDL được xử lý này chạy trên phần mềm ứng dụng WEKA 
sử dụng thuật toán phân lớp cây quyết định. Để tiến hành phân lớp được bộ CSDL 
này ta phải chuyển đổi kết quả của Bảng kỹ năng, tính cách và sở thích từ phần 
mềm Excel (*.xls, *.xlsx) sau đó tiến hành lưu file thành file *.csv. Sau đó từ file 
*.csv ta sử dụng ứng dụng WEKA đổi thành file *.arff để có thể thực hiện được 
trong ứng dụng WEKA. Các bước chuyển đổi đó được thực hiện như sau: 
Bước 1: Mở phần mềm ứng dụng Ms Excel, sau đó mở tệp Dữ liệu đã được 
lưu sẵn trên ổ đĩa với các kỹ năng, tính cách và sở thích của các đối tượng ở mỗi 
ngành nghề khảo sát. 
Bước 2:Lưu tệp thành file có phần mở rộng là *.csv 
3.3. Đánh giá và phân tích kết quả thực nghiệm 
PHẦN III: KẾT LUẬN 
1. Kết luận 
2. Kiến nghị 
Hình 3.2: Bảng kỹ năng, tính cách và sở thích khi xử lý 
Hình 3.3: Lưu tệp CSDL thành *.csv 
20 
Bước 3: Sử dụng phần mềm ứng dụng WEKA để chuyển đối tệp *.csv thành 
tệp có phần mở rộng *.arff để chạy được trên WEKA. 
Tiến hành phân lớp dữ liệu trong ứng dụng WEKA phiên bản 3.9.0 
Bước 1: Khởi động ứng dụng WEKA phiên bản 3.9.0, sau đó chọn Explore 
Bước 2: Chọn Openfile để lựa chọn tập dữ liệu trên máy 
Hình 3.4: Lưu file từ *.csv thành file *.arff 
Hình 3.5: Mở tệp CSDL để xử lý trên WEKA 
21 
Bước 3: Chọn mục classify để lựa chọn chức năng phân lớp dữ liệu 
Bước 4: Lựa chọn thuật toán phân lớp và thiết lập các thông số cho giải thuật, chọn 
thuật toán và số lớp theo hướng dẫn (Hình 3.11). 
Hình 3.6: Công cụ phân lớp (Classify) trên WEKA 
Chọn thuật toán để tiến hành phân lớp 
Hình 3.7: Chọn tên thuật toán để tiến hành phân lớp trên WEKA 
22 
Bước 5: Chọn trường cần phân lớp (Chọn trường NN) và Start để tiến hành phân 
lớp 
3.3. Kết quả thử nghiệm và đánh giá 
Sử dụng kết quả của hệ thống câu hỏi trắc nghiệm dựa trên kỹ năng, năng 
lực, sở thích của các ngành nghề được khảo sát để định hướng ngành nghề cho học 
sinh sử dụng thuật toán phân lớp cây quyết định. Từ bảng CSDL thu thập chứa kết 
quả của kỹ năng, năng lực, sở thích của các đối tượng thuộc các ngành nghề được 
khảo sát sử dụng thuật toán phân lớp cây quyết định để tiến hành phân lớp xem sự 
lựa chọn có phù hợp không? Để có thể đưa ra các tư vấn giúp học sinh có quyết 
định chắc chắn và hợp lý nhất trong việc lựa chọn nghề của mình sau này. 
Tiến hành đánh giá sau khi trích lọc các thông tin hợp lệ được: 
- Năm học 2018 – 2019: 125 (học sinh); 
- Năm học 2019 – 2020: 220 (học sinh); 
- Năm học 2020 – 2021: 135(học sinh) 
Của khối 12 trường THPT Tây Hiếu thông qua các câu hỏi từ phiếu khảo 
sát. Các câu hỏi được phân cấp độ và được mã hóa theo các mức độ: 1, 2, 3, 4. Kết 
quả khảo sát lưu trong tệp HienDataNN.CSV. 
Hình 3.8: Kết quả hiển thị của phân lớp dữ liệu bằng thuật toán cây quyết định 
23 
Hình 3.9: Dữ liệu tiền xử lý năm học 2018 - 2019 
Hình 3.10. Dữ liệu tiền xử lý năm học 2019 - 2020 
24 
Ta tiến hành phân lớp các dữ liệu trên để dựa vào những dữ liệu đã có để 
nhận xét, phân tích đánh giá qua đó ta có thể định hướng tư vấn chính xác có cơ sở 
khoa học tăng tính hiệu quả cho các đối tượng được tư vấn. 
* Kết quả thực nghiệm dựa trên giải pháp KPDL 
Chọn chia dữ liệu theo kiểu Cross – Validation (10 – Folds) 
Áp dụng thuật toán cây quyết định để phân lớp CSDL 
 Sử dụng thuật toán phân lớp cây quyết định để phân lớp cho bài toán 
Hình 3.12: Kết quả phân lớp của thuật toán phân lớp cây quyết định 
Hình 3.11. Dữ liệu tiền xử lý năm học 2020 - 2021 
25 
Sử dụng mô hình đã huấn luyện để dự báo bản ghi mới 
Bước1: Đầu tiên ta phải tải mô hình đã lưu bằng cách nháy chuột phải trên 
bảng điều khiển danh sách kết quả của bảng điều khiển. 
Bước 2: Trong các tuỳ chọn của “Test options” ta nháy chuột chọn 
“Supplied test set” và tiếp tục chọn bộ thử nghiệm được cung cấp; khi tệp đó được 
tải lên chúng ta chọn không có lớp nào trong danh sách các thuộc tính. 
26 
Bước 3: Sau đó, nháy chuột chọn “More options” một cửa sổ mới được mở 
ra và chúng ta chọn “Plain Text” từ “Output prediction” 
Bước 4: Cuối cùng, chúng ta cần nhấp chuột phải vào mô hình và chạy “Re – 
evaluate on current test set”. 
27 
Các kết quả được hiển thị trong bảng điều khiển đầu ra (Classifier output), bên 
dưới là dự đoán về dữ liệu thử nghiệm (Predictions on test data). Cột dự đoán có 
chứa tests_p hoặc tests_n cho mỗi dòng trong tệp thử nghiệm. 
* Bảng đánh giá kết quả khi sử dụng phân lớp bằng thuật toán cây quyết định cho 
học sinh trường THPT Tây Hiếu để tư vấn định hướng nghề nghiệp cho học sinh. 
 Kết quả đánh giá dựa vào dữ liệu thu thập thực tế thông qua phiếu khảo sát 
được xây dựng dựa vào các câu hỏi liên quan đến kỹ năng, sở thích, tính cách, nền 
tảng giáo dục (PHỤ LỤC A). 
 Nghề Giáo viên: Phân lớp nhãn A 
 Nghề Công An và Bộ đội: Phân lớp nhãn B 
 Nghề Kinh Doanh: Phân lớp nhãn C 
 Nghề Y: Phân lớp nhãn D 
 Nghề Xây dựng: Phân Lớp nhãn E 
 Nghề Công nghệ thông tin: Phân lớp nhãn F 
- Năm học 2018 – 2019: Khảo sát 125 học sinh khối 12 để định hướng tư vấn chọn 
nghành nghề. 
STT HỌ VÀ TÊN TƯ VẤN CHỌN NGHỀ 
1 Cao Đình Cường Nghề Kinh Doanh 
2 Cao Thế Anh Đức Công nghệ thông tin 
3 Hoàng Ngọc Đức Nghề Y 
4 Nguyễn Thị Trà Giang Công An và Bộ đội 
5 Nguyễn Thị Thùy Linh Giáo viên 
6 Nguyễn Văn Long Xây dựng 
7 Phạm Hương Ly Nghề Kinh doanh 
8 Quế Ngọc Ánh Giáo viên 
9 Hồ Hải Bắc Công nghệ thông tin 
10 Ngô Thanh Bình Nghề Xây dựng 
11 Phạm Lê Quỳnh Chi Nghề giáo viên 
 . .. 
28 
- Năm học 2019 – 2020: Khảo sát 220 học sinh khối 12 để định hướng tư vấn chọn 
nghành nghề. 
STT HỌ VÀ TÊN TƯ VẤN CHỌN NGHỀ 
1 Phan Quốc Anh Nghề Kinh doanh 
2 Phạm Thị Ngọc Ánh Nghề Giáo viên 
3 Nguyễn Thị Thúy Hiền Nghề Y 
4 Trương Thị Hiền Nghề Y 
5 Võ Chí Minh Nghề Công nghệ thông tin 
6 Đậu Thị Lê Na Nghề Kinh doanh 
7 Trần Thị Hồng Na Nghề Công an và Bộ đội 
 .. .. 
- Năm học 2020 – 2021: Khảo sát 135 học sinh khối 12 để tư vấn định hướng chọn 
nghành nghề. 
STT HỌ VÀ TÊN TƯ VẤN CHỌN NGHỀ 
1 Võ Quốc Bảo Nghề Công An và Bộ đội 
2 Ngân Trọng Bút Nghề Xây dựng 
3 Hoàng Nghĩa Cảnh Nghề Y 
4 Võ Thị Thúy Danh Nghề Kinh doanh 
5 Phạm Ý Duyên Nghề Giáo viên 
6 Đào Ngọc Hoàng Nghề Công nghệ thông tin 
7 Lê Việt Hoàng Nghề Công nghệ thông tin 
8 Nguyễn Phi Hùng Nghề Xây dựng 
 . .. 
29 
PHẦN III: KẾT LUẬN 
 Đề tài “SỬ DỤNG THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ĐỂ 
TƯ VẤN ĐỊNH HƯỚNG NGHỀ NGHIỆP CHO HỌC SINH THPT” đã tìm hiểu 
nghiên cứu thuật toán cây quyết định để phân lớp dữ liệu dựa vào những đặc trưng 
của các ngành nghề, được khảo sát từ thực tế, theo đó có thể định hướng tư vấn 
chọn nghề nghiệp cho học sinh THPT dựa vào kỹ năng, tính cách, sở thích, nền 
tảng giáo dục. 
 Tôi hi vọng nếu được phát triển tiếp đề tài này sẽ giúp các em học sinh 
THPTcó thể lựa chọn nghề nghiệp cho học sinh THPT. Từ đó hỗ trợ các em học 
sinh các trường THPT Tây Hiếu có thể lựa chọn ngành học phù hợp với thế mạnh 
của bản thân khi định hướng nghề nghiệp. 
1. Kết luận 
Với sự giúp đỡ của nhà trường và đồng nghiệp cùng với sự nỗ lực của bản thân 
tôi đã hoàn thành xong đề tài với kết quả đánh giá như sau: 
a)Về nghiên cứu lý thuyết 
- Đã trình bày được hệ thống những kiến thức tổng quan liên phân lớp dữ liệu 
sử dụng thuật toán cây quyết định. 
- Nghiên cứu các yếu tố liên quan đến đặc điểm của các ngành nghề. 
- Nghiên cứu công cụ khai phá dữ liệu Weka. 
b) Về bài toán thực nghiệm 
- Xác định bài toán cụ thể là xây dựng công cụ lựa chọn nghề nghiệp và chuẩn 
bị nguồn dữ liệu để xây dựng chương trình. 
- Xây dựng mô hình định hướng chọn ngành nghề của những người đã làm 
việc dựa vào các đặc điểm của nghề nghiệp sử dụng thuật toán phân lớp cây quyết 
định. 
- Xây dựng chương trình ứng dụng mô hình được lựa chọn để dự đoán ngành 
nghề của học sinh dựa vào thông tin đầu vào là kỹ năng, năng lực và sở thích từ đó 
có thể thực hiện tư vấn chọn nghề cho học sinh trong năm học 2018 – 2019; năm 
học 2019 – 2020; năm học 2020 – 2021. 
Tuy nhiên, do thời gian có hạn cũng như năng lực của bản thân còn hạn chế 
nên trong đề tài sẽ không tránh khỏi những sơ suất cũng như thiếu sót. Tôi rất 
mong nhận được những góp ý, trao đổi từ quý thầy cô – các đồng nghiệp để đề tài 
được hoàn thiện hơn. 
2. Kiến nghị và hướng phát triển 
Khi có ý tưởng nghiên cứu về đề tài này tôi mong muốn là sẽ giải quyết được 
vấn đề cơ bản: 
- Kiểm tra xem việc sử dụng thuật toán phân lớp Cây quyết định để dựa vào 
kỹ năng, năng lực và sở thích để tư vấn định hướng học sinh trong việc chọn ngành 
nghề hay không? 
30 
- Nghiên cứu sâu hơn các yếu tố liên quan đến nghề nghiệp để xây dựng được 
bộ dữ liệu có ý nghĩa hơn cho việc tư vấn nghề nghiệp. 
- Thử nghiệm với các thuật toán khác để giải quyết bài toán tư vấn định 
hướng nghề nghiệp cho học sinh THPT hiệu quả hơn. 
Tôi mong rằng đề tài nghiên cứu tiếp theo sẽ sử dụng nhiều hơn nữa các lĩnh 
vực ngành nghề trong việc định hướng tư vấn chọn nghề nghiệp cho học sinh 
THPT cũng như sử dụng nhiều thuật toán phân lớp trong các bài toán quản lý 
trường THPT giải quyết được nhiều vấn đề trong ngành giáo dục. Để những đóng 
góp đó phần nào đưa đến nhiều thuận lợi cho công tác quản lý cũng như công tác 
dạy học. 
31 
TÀI LIỆU THAM KHẢO 
1). Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá dữ 
liệu, NXB Đại học Quốc gia Hà Nội, 2013. 
2). Nguyễn Đặng Thế Vinh, Ứng dụng khai phá dữ liệu chọn ngành nghề cho học 
sinh THPT, luận văn Thạc sĩ, Đại học Quốc tế Hồng Bàng, 2014 
3). Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, 
3rd Edition. Morgan Kaufmann Publishers, 2011. 
4). H. Gulati, “Predictive analytics using data mining technique”, in Computing 
for Sustainable Global Develop. (INDIACom), 2015 2nd Int. Conf., Mar.2015. 
32 
PHỤ LỤC A 
PHIẾU KHẢO SÁT 
 Xin chào các em học sinh! 
Để có thể tư vấn sự lựa chọn ngành nghề dựa vào kỹ năng, năng lực và sở 
thích của các em nhằm đưa ra giải pháp phù hợp nâng cao định hướng nghề cho 
học sinh THPT. Để làm điều này, tôi cần phải thu thập thông tin từ thực tế, do vậy 
tôi rất mong sự hợp tác của các em trong việc cung cấp thông tin chính xác nhất 
với các mục sau đây. 
 Trân trọng cám ơn các em! 
I. THÔNG TIN CÁ NHÂN 
1. Họ và tên: . . . . . . . . . . . . . . . . . . . . . . . . . . .. 
2. Năm sinh: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Giới tính: Nam Nữ 
3. Nghề nghiệp hiện tại yêu thích: 
A. Giáo Viên B. Công an và Bộ đội C. Kinh doanh 
D. Ngành Y E. Xây Dựng F. Ngành công nghệ thông tin 
Email (nếu có): . . . . . . . . . . . . 
II. THÔNG TIN KHẢO SÁT 
 Đây là các câu hỏi khảo sát, với mỗi câu hỏi em hãy khoanh tròn vào một ô 
trả lời đúng với bản thân mình. 
Câu 1: Khả năng trình bày trước đám đông của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 2: Khả năng lập luận logic của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 3:Khả năng viết các báo cáo của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 4: Khả năng quan sát, nghiên cứu của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 5: Em có cần lắng nghe, chia sẻ không? 
1. Không cần 2. Ít cần 3. Cần thiết 4. Rất cần 
Câu 6: Khả năng ghi nhớ của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 7: Sức chịu đựng của em như thế nào? 
33 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 8: Em có thích làm việc với nhiều người không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất Thích 
Câu 9: Khả năng hòa giải, giải quyết mâu thuẫn của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 10: Khả năng kiểm soát sự chính xác của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 11: Khả năng giải quyết vấn đề của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 12: Khả năng tổng hợp, tóm tắt công việc của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 13: Khả năng tư duy phản biện của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 14: Khả năng phân tích và đánh giá của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 15: Em có thích nắm bắt các vấn đề thời sự không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 16: Khả năng nhận thức xã hội của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 17: Khả năng giám sát của Anh/ Chị như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 18: Năng lực về Tin học của em như thế nào? 
1. Không tốt 2. Khá tốt 3. Tốt 4. Rất Tốt 
Câu 19: Khả năng học định hướng học tập của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 20: Năng lực tự chủ và tự học của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
34 
Câu 21: Năng lực thẩm mỹ của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 22: Năng lực sáng tạo và giải quyết vấn đề của em như thế nào? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 23: Khả năng thuyết phục của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 24: Khả năng đánh giá hệ thống của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 25: Khả năng hướng dẫn của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 26: Khả năng phối hợp của em như thế nào? 
1. Không tốt lắm 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 27: Em có thích thiết kế công nghệ không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 28: Em có thích nghiên cứu không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 29: Em có thích nghề dạy học không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 30: Em có thích làm việc theo nhóm không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 31: Em có thích những cuộc phưu lưu không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 32: Em có thích hoạt động điều tra không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 33: Em có thích làm việc với máy tính không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 34: Em có học tốt các môn Văn, Sử, Địa không? 
35 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 35: Em có học tốt các môn Toán, Lý, Hóa không? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 36: Em có học tốt các môn Toán, Hóa, Sinh không? 
1. Không tốt 2. Hơi tốt 3. Tốt 4. Rất tốt 
Câu 37: Em có thích các công việc chăm sóc sức khỏe không? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 38: Em có thích hướng dẫn, giảng giải cho người khác? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 39: Em có thích giám sát, điều tra? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 
Câu 40: Em có nhiều kiến thức về công nghệ thông tin không? 
1. Không nhiều 2. Hơi nhiều 3. Tương đối 4. Rất nhiều 
Câu 41: Em có thích công tác xã hội, phục vụ cộng đồng? 
1. Không thích 2. Hơi thích 3. Thích 4. Rất thích 

File đính kèm:

  • pdfskkn_su_dung_thuat_toan_phan_lop_cay_quyet_dinh_de_tu_van_di.pdf