Thứ Tư, 11 tháng 6, 2014

Trong kinh tế lượng, để đi xây dựng một mô hình nghiên cứu thì việc đầu tiên cần làm chính là cần có một cơ sở dữ liệu chính xác, tổng quát và đặc biệt phải phù hợp với từng vấn đề cần nghiên cứu. Việc xác định chính xác kiểu dữ liệu hợp lý sẽ tiết kiệm thời gian tìm kiếmtăng chính chuẩn xác cho mô hình cần thực hiện.
Vậy dữ liệu là gì và đặc điểm của từng loại dữ liệu ra làm sao? Bài viết sau đây sẽ giới thiệu cho bạn. ^_^
Các bạn thư giãn một chút nghe ^_^
1. Khái niệm
Dữ liệu là kết quả quan sát của các biến (biến là đặc điểm của đơn vị tổng thể), giá trị nhận được có thể thay đổi từ đơn vị này sang đơn vị khác.
2. Phân loại
- Căn cứ vào đặc điểm tính chất của dữ liệu, chúng ta chia dữ liệu thành hai loại: dữ liệu định tính và dữ liệu định lượng.
"Biến định tính thể hiện loại hay tính chất của đơn vị hoặc phần tử được khảo sát, ví dụ như giới tính, trình độ, nghề nghiệp...
Biến định lượng thể hiện bằng con số. Là kết quả của quá trình cân đo đong đếm, ví dụ như trọng lượng, tuổi thọ trung bình, ..." [Phần chi tiết thêm]
- Căn cứ vào nguồn gốc của dữ liệu, chúng ta chia dữ liệu thành hai loại dữ liệu sơ cấp và dữ liệu thứ cấp.
Dữ liệu sơ cấp là dữ liệu do người nghiên cứu thu thập được chưa qua xử lý hoặc qua xử lý rồi nhưng vẫn trong trạng thái nguyên thủy của nó. Trong thống kê, còn có khái niệm khác là dữ liệu được công bố bởi chính tổ chức đã thu thập chúng hoặc dữ liệu sơ cấp là dữ liệu do chính bản thân người nghiên cứu thu thập được. Ví dụ, GDP, GNP, lạm phát do Tổng cục thống kê cung cấp được gọi là dữ liệu sơ cấp.
Dữ liệu thứ cấp là dữ liệu được tổng hợp từ các nguồn dữ liệu sơ cấp hoặc dữ liệu đã có sẵn.
[Chi tiết việc thu thập dữ liệu sơ cấp các bạn xem trong sách nguyên lý thống kê và ứng dụng trong kinh doanh, Trần Bá Nhẫn - Đinh Thái Hoàng (2006), trang 6,7]
- Căn cứ vào hình thức trình bày dữ liệu chúng ta chia dữ liệu thành 3 loại: Dữ liệu chuỗi thời gian (time serial data), dữ liệu chéo (cross data) và dữ liệu bảng (pannel data).
Khi chạy các mô hình định lượng, chúng ta chỉ quan tâm đến dữ liệu được trình bày theo dạng nào để áp dụng các mô hình phù hợp với dữ liệu đó, phần sau đây sẽ trình bày chi tiếp hơn về các lại dữ liệu này.
3. Phân biệt dữ liệu chuỗi thời gian, dữ liệu chéo, dữ liệu bảng
Dữ liệu chuỗi thời gian (time serial data)
Dữ liệu kinh tế tại Việt Nam (Dữ liệu chuỗi thời gian)
Dữ liệu chuỗi thời gian là dữ liệu của một hay nhiều biến được thu thập ở các thời điểm khác  nhau (ngày, tuần, tháng, quý, năm,..) nhưng chỉ tại một địa điểm nhất định (Vd: dữ liệu về số bệnh viện tại thành phố HCM từ năm 2000 đến 2006, GNP giai đoạn 2010 đến 2015,…).
Ưu điểm của dữ liệu chuỗi thời gian là tùy các đối tượng nghiên cứu (một đất nước, tỉnh thành, hay chỉ số doanh thu một công ty,..) mà sẽ tìm được số liệu chính xác nhất từ các cơ quan, bộ phận hay cá nhân thống kê, thu thập được.

Dữ liệu chéo (cross data)
Dữ liệu chéo là dữ liệu của một hay nhiều biến được thu thập cho nhiều đơn vị mẫu hoặc địa điểm mẫu tại cùng một thời điểm. (Vd: số bệnh viện tại thành phố HCM, Nhà Trang, Đà Nẵng vào năm 2000).

Dữ liệu các tỉnh thành ở Việt Nam (Dữ liệu chéo)
Ưu điểm của dữ liệu chéo là phù hợp cho những vấn đề nghiên cứu mang quy mô lớn, liên quan đến cá nhân, doanh nghiệp, tỉnh thành, đất nước,…cần sự đặc trưng của từng cá thể.
Dữ liệu bảng (pannel data)
Dữ liệu bảng là sự kết hợp của dữ liệu chuỗi thời gian và dữ liệu chéo. 
Dữ liệu bảng bao gồm hai loại dữ liệu bảng cân đối (Balanced panel) và dữ liệu bảng không cân đối (Unbanced panel). 
  • Dữ liệu bảng cân đối (Balanced panel): Khi các đơn vị dữ liệu chéo có cùng số quan sát theo thời gian
Ví dụ dữ liệu bảng cân đối
  • Dữ liệu bảng không cân đối (Unbanced panel): Khi các đơn vị chéo không có cùng số quan sát theo thời gian.
Ví dụ dữ liệu bảng không cân đối
Ưu điểm của dữ liệu bảng
  • Kỹ thuật ước lượng dữ liệu bảng có thể chính thức xem xét đến tính dị biệt (tính không đồng nhất) đó bằng cách xem xét các biến số có tính đặc thù theo từng cá nhân.
  • Thông qua kết hợp các chuỗi theo thời gian của các quan sát theo không gian, dữ liệu bảng cung cấp những dữ liệu có nhiều thông tin hơn, đa dạng hơn, ít cộng tuyến hơn giữa các biến số, nhiều bậc tự do hơn và hiệu quả hơn. Lý do là khi ta ước lượng bằng chuỗi thời gian thỉnh thoảng ta phải đối phó với tình trạng đa cộng tuyến giữa các biến, điều này làm cho ước lượng không hiệu quả. [Lý thuyết về hiện tượng đa cộng tuyến sẽ trình bày ở một bài viết khác].
  • Thông qua nghiên cứu các quan sát theo không gian lặp lại, dữ liệu bảng phù hợp hơn để nghiên cứu tính động của thay đổi, dữ liệu bảng thực hiện tốt hơn các nghiên cứu về những thay đổi xảy ra liên tục như tỷ lệ thất nghiệp, di chuyển lao động. 
  • Dữ liệu bảng có thể phát hiện và đo lường tốt hơn những ảnh hưởng mà không thể quan sát trong dữ liệu chuỗi thời gian thuần túy (thời gian là liên tục) hay dữ liệu chéo theo không gian thuần túy (không gian là liên tục/chỉ một). Ví dụ, ảnh hưởng của luật tiền lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta xem xét các đợt gia tăng tiền lương tối thiểu liên tiếp nhau trong mức lương tối thiểu của một tỉnh thành hay một quốc gia.
  • Dữ liệu bảng vi mô tập hợp được rất nhiều cá nhân, doanh nghiệp hay chủ thể sẽ có một sự đo lường chính xác hơn. Theo Blundell (1988) và Klevmarken (1989) các ước lượng bị chệch sẽ bị giảm hoặc triệt tiêu khi chúng ta sử dụng dữ liệu bảng.
  • Dữ liệu bảng giúp ta nghiên cứu những mô hình hành vi phức tạp hơn. Ví dụ, các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi kỹ thuật có thể được xem xét thông qua dữ liệu bảng tốt hơn so với dữ liệu theo chuỗi thời gian thuần túy hay theo không gian thuần túy.
  • Đối với các biến vĩ mô, dữ liệu bảng có chiều thời gian dài hơn và chiều không gian cũng lớn nên có thể giải quyết vấn đề phân phối chuẩn của các biến.  


Nguồn: Đoàn Văn Thạnh tổng hợp



0 nhận xét:

Đăng nhận xét