Quảng Cáo
0943778078
Nội dung và Dữ liệu: Mỹ Hà
Đồ họa: Mỹ Hà - Thanh Hạ
Về dữ liệu và phương pháp:
- Dữ liệu và kết quả trong bài dựa trên nghiên cứu "Understanding the labour market in Vietnam: Evidence from LinkedIn Data", được hướng dẫn bởi chuyên gia về Khoa học dữ liệu tại Trường Chính sách công và Quản lý Fulbright.
- Dữ liệu được cung cấp bởi BrightData - nền tảng về web và proxy thu thập dữ liệu thành lập từ năm 2014, cung cấp dữ liệu cho nhiều tập đoàn thuộc Fortune 500, tổ chức nghiên cứu... BrightData cung cấp dữ liệu của 1,9 triệu hồ sơ công khai trên LinkedIn tại Việt Nam. Tuy nhiên, do hạn chế nguồn lực, nghiên cứu này chỉ phân tích hơn 600.000 hồ sơ có thông tin về công việc đang làm ở thời điểm thu thập dữ liệu (tháng 9/2025), có thông tin về trình độ giáo dục và kinh nghiệm. Do đó, dữ liệu không phản ánh người thất nghiệp hoặc thiếu việc làm. Quá trình thu thập dữ liệu được cam kết tuân thủ các tiêu chuẩn toàn cầu về bảo vệ dữ liệu cá nhân, nhất là với các chính sách nghiêm ngặt của GDPR, CCPA và các quy định khác về quyền riêng tư.
- Dữ liệu phản ánh nhóm lao động đặc thù (người dùng LinkedIn có trình độ học vấn cao, tập trung ở các đô thị), cần thận trọng khi khái quát hóa kết quả cho toàn bộ lực lượng lao động Việt Nam. Trong nghiên cứu này, mỗi hồ sơ trên LinkedIn được hiểu là một người lao động. Dữ liệu đã được phi định danh toàn bộ thông tin người dùng trước khi xử lý bằng cách mã hoá toàn bộ ID thành số thứ tự.
- Dữ liệu phản ánh nhóm lao động đặc thù (người dùng LinkedIn có trình độ học vấn cao, tập trung ở các đô thị), cần thận trọng khi khái quát hóa kết quả cho toàn bộ lực lượng lao động Việt Nam. Trong nghiên cứu này, mỗi hồ sơ trên LinkedIn được hiểu là một người lao động. Dữ liệu đã được phi định danh toàn bộ thông tin người dùng trước khi xử lý bằng cách mã hoá toàn bộ ID thành số thứ tự.
- Phương pháp cốt lõi là Xử lý ngôn ngữ tự nhiên (NLP) với các kỹ thuật prompt, vector embedding, đo độ tương đồng cosine, để chuẩn hóa dữ liệu phi cấu trúc về dạng dữ liệu có cấu trúc. Tên ngành học, ngành nghề người dùng khai báo được chuẩn hóa theo Danh mục 87 ngành công nghiệp Việt Nam (mã 2 chữ số) và Danh mục ngành đào tạo của giáo dục Đại học Việt Nam (mã 5 chữ số). Phần kỹ năng theo ngành nghề và thâm niên sử dụng kỹ thuật HDBSCAN, cho phép phân cụm cho từng ngành dựa trên mức độ hội tụ kỹ năng, chứ không chỉ dựa trên thâm niên. Dữ liệu có độ nhiễu khoảng 10% do hạn chế của phương pháp đo độ tương đồng cosine.








