Tài liệu là một cuốn sách có tựa đề “Phân tích DỮ LIỆU với R” của Nguyễn Văn Tuấn, do Nhà xuất bản Tổng hợp Thành phố Hồ Chí Minh ấn hành năm 2014, dày 520 trang. Cuốn sách tập trung vào việc hướng dẫn sử dụng ngôn ngữ lập trình R để phân tích dữ liệu và vẽ đồ thị, với mục tiêu giới thiệu những phát triển về tính toán và phân tích thống kê trên thế giới cho độc giả trong nước.
Những điểm chính của tài liệu:
- Giới thiệu về R: R được mô tả là một phần mềm và ngôn ngữ máy tính đa năng, miễn phí, có khả năng phân tích dữ liệu cao hơn các phần mềm thương mại như SPSS, SAS, Stata. R do Ross Ihaka và Robert Gentleman sáng tạo và được phát triển theo định hướng mở rộng (Open Access).
- Cài đặt và sử dụng cơ bản: Hướng dẫn cách tải và cài đặt R từ trang web http://cran.R-project.org. R thường được sử dụng dưới dạng “command line” và phân biệt chữ hoa, chữ thường, cũng như sử dụng dấu chấm thay cho khoảng trống trong các lệnh.
- Package: Để thực hiện các phân tích phức tạp hơn, người dùng cần tải và cài đặt các package (phần mềm nhỏ) như lattice, Hmisc, rms, Epi, epitools, foreign, Rmeta, metafor, survival, Zelig, genetics, BMA, ggplot2, psych.
- Văn phạm ngôn ngữ R: Giải thích về lệnh (command) và hàm (function) cùng các thông số, cách R xử lý các đối tượng (object-oriented language) và các kí hiệu thường dùng. Lệnh
args(x)giúp tìm hiểu các thông số của một hàm. - Hỗ trợ trong R: Cung cấp các lệnh
help()hoặc?lmđể tìm hiểu về các hàm, vàapropos("lm")để tìm các hàm chứa kí tự “lm”. - Môi trường vận hành: Hướng dẫn cách thiết lập thư mục làm việc (
setwd()) và kiểm tra thư mục hiện tại (getwd()), cũng như thay đổi các tùy chọn hiển thị. - Nhập dữ liệu: Trình bày các phương pháp nhập dữ liệu vào R, bao gồm:
- Nhập trực tiếp bằng hàm
c()và tạodata.frame(). - Nhập trực tiếp bằng
edit(data.frame())qua giao diện bảng tính. - Đọc dữ liệu từ file văn bản (
read.table()). - Nhập dữ liệu từ Excel (chuyển sang định dạng CSV rồi dùng
read.csv()). - Nhập dữ liệu từ SPSS (
read.spss()trong package foreign).
- Nhập trực tiếp bằng hàm
- Thông tin cơ bản về dữ liệu: Các lệnh như
attach(),is.data.frame(),dim(),names(),table()để kiểm tra và lấy thông tin về dữ liệu. - Biên tập dữ liệu: Các kỹ thuật để tổ chức dữ liệu hiệu quả:
- Kiểm tra và loại bỏ số liệu trống (
na.omit()). - Tách rời dữ liệu thành các nhóm nhỏ hơn (
subset()). - Chiết xuất các biến số cần thiết từ
data.frame. - Nhập hai
data.framethành một bằng lệnhmerge(). - Mã hóa số liệu từ biến liên tục sang biến phân loại bằng cách gán giá trị hoặc dùng hàm
replace(). - Biến đổi thành yếu tố (factor) bằng hàm
factor()để R nhận diện biến phân loại. - Chia nhóm bằng hàm
cut()(theo giá trị) vàcut2()(trong package Hmisc, chia theo số mẫu tương đương).
- Kiểm tra và loại bỏ số liệu trống (
- Các phép tính đơn giản và ma trận:
- Thực hiện các phép toán cơ bản như cộng, trừ, nhân, chia, lũy thừa, logarit, căn bậc hai, hàm lượng giác.
- Tính toán vector: tổng bình phương, sai số bình phương, phương sai, độ lệch chuẩn.
- Xử lý số liệu ngày tháng: định dạng ngày tháng theo tiêu chuẩn ISO 8601, tính khoảng cách giữa hai ngày, tạo dãy số liệu ngày tháng.
- Tạo dãy số bằng hàm
seq,repvàgl. - Thực hiện các phép tính ma trận: tạo ma trận, chuyển vị, chiết xuất phần tử, cộng, trừ, nhân ma trận (
%*%), nghịch đảo ma trận (solve()), tính trị số eigen (eigen()), định thức (det()).
Công nghệ thông tin Sách giáo trình
Phân tích DỮ LIỆU với R- Tác giả: Nguyễn Văn Tuấn
- Ngôn ngữ: Tiếng Việt
