Data là gì? Tổng quan về dữ liệu cho người mới bắt đầu
- 1 ngày trước
- 11 phút đọc
Theo thống kê mới nhất của Statista, mỗi ngày thế giới tạo ra khoảng 402,74 triệu terabyte dữ liệu — đủ lấp đầy hàng tỷ chiếc smartphone. Năm 2006, nhà toán học người Anh Clive Humby đã đưa ra một câu nói nổi tiếng: "Data is the new oil" — dữ liệu là dầu mỏ của thời đại mới. Gần 20 năm sau, câu nói ấy vẫn đúng, và thậm chí còn đúng hơn trước.
Nhưng chính xác "data" là gì? Vì sao mọi doanh nghiệp đều nói về data? Và nếu bạn đang tò mò về ngành Data Analytics, hành trình của bạn nên bắt đầu từ đâu? Bài viết này sẽ giải đáp toàn bộ những câu hỏi đó một cách dễ hiểu nhất.
Data là gì?
Data (dữ liệu) là tập hợp các sự kiện, con số, ký tự, hình ảnh, âm thanh hoặc bất kỳ ký hiệu nào được ghi nhận và lưu trữ, có thể xử lý để tạo ra ý nghĩa.
Nói cách khác, data có mặt ở khắp mọi nơi quanh bạn:
Số bước chân hôm nay trên smartwatch
Lịch sử mua hàng trên Shopee, Tiki
Ảnh và video trên điện thoại
Tin nhắn Zalo, email công việc
Vị trí GPS khi bạn đặt Grab
Tất cả đều là data. Nhưng có một điểm quan trọng cần phân biệt: data chưa phải là thông tin (information). Data là nguyên liệu thô — chỉ khi được xử lý và đặt trong ngữ cảnh, nó mới trở nên có ý nghĩa.
Phân biệt Data - Information - Knowledge - Wisdom (Mô hình DIKW)
Đây là mô hình kinh điển trong khoa học thông tin, thường được gọi là kim tự tháp DIKW (Data – Information – Knowledge – Wisdom). Mô hình do Russell Ackoff phát triển năm 1989, giúp chúng ta hiểu rõ data tiến hóa thành tri thức như thế nào.
Hãy xem qua một ví dụ cụ thể:
Tầng | Định nghĩa | Ví dụ |
Data | Sự kiện thô, chưa có ngữ cảnh | "28°C" |
Information | Data đã có ngữ cảnh | "Nhiệt độ Hà Nội hôm nay là 28°C" |
Knowledge | Information đã hiểu và áp dụng | "28°C là nhiệt độ dễ chịu, không cần áo khoác khi ra ngoài" |
Wisdom | Knowledge dùng để ra quyết định khôn ngoan | "Nên rủ bạn bè đi cafe ngoài trời chiều nay" |
Mô hình này rất quan trọng vì nó cho thấy: mục tiêu cuối cùng của ngành Data không phải là thu thập thật nhiều dữ liệu, mà là biến dữ liệu thành quyết định khôn ngoan. Đây cũng là lý do nghề Data Analyst tồn tại — bạn chính là người giúp doanh nghiệp leo từ tầng Data lên tầng Wisdom.

Các loại Data phổ biến
Trong thực tế, data được phân loại theo nhiều cách. Dưới đây là 3 cách phân loại quan trọng nhất.
Phân loại theo cấu trúc
Structured data (dữ liệu có cấu trúc): Dữ liệu sắp xếp theo hàng và cột rõ ràng, dễ lưu trong cơ sở dữ liệu quan hệ. Ví dụ: bảng tính Excel, dữ liệu trong MySQL, SQL Server.
Semi-structured data (bán cấu trúc): Có một số thẻ phân loại nhưng không hoàn toàn theo bảng. Ví dụ: file JSON, XML, email (có header + body).
Unstructured data (phi cấu trúc): Không có cấu trúc rõ ràng. Ví dụ: hình ảnh, video, file âm thanh, bài đăng mạng xã hội, file PDF. Đây là loại data chiếm phần lớn (ước tính 80-90%) dữ liệu trên thế giới.
Phân loại theo nguồn gốc
First-party data: Dữ liệu do doanh nghiệp tự thu thập trực tiếp từ khách hàng (lịch sử mua hàng, hành vi trên website của chính mình).
Second-party data: Dữ liệu chia sẻ giữa các đối tác tin cậy.
Third-party data: Dữ liệu mua từ bên thứ ba, thường là các data broker chuyên cung cấp dữ liệu khách hàng.
Phân loại theo trạng thái
Data at rest: Dữ liệu đang lưu trữ trong cơ sở dữ liệu hoặc kho lưu trữ.
Data in motion: Dữ liệu đang được truyền giữa các hệ thống.
Data in use: Dữ liệu đang được xử lý hoặc phân tích.
Cách phân loại này đặc biệt quan trọng khi nói về bảo mật dữ liệu — mỗi trạng thái cần một phương pháp bảo vệ khác nhau.
Big Data là gì? Khác Data thông thường thế nào?
Big Data là tập dữ liệu có quy mô và độ phức tạp vượt quá khả năng xử lý của các công cụ truyền thống (như Excel hay database thông thường). Big Data thường được mô tả qua mô hình 5V:
Volume (Khối lượng): Dữ liệu cực lớn, đo bằng terabyte, petabyte, exabyte.
Velocity (Tốc độ): Dữ liệu được tạo ra và xử lý theo thời gian thực.
Variety (Đa dạng): Bao gồm cả structured, semi-structured và unstructured data.
Veracity (Độ tin cậy): Chất lượng và độ chính xác của dữ liệu.
Value (Giá trị): Giá trị kinh doanh rút ra được từ dữ liệu.
Ba V đầu tiên (Volume, Velocity, Variety) được Doug Laney của MetaGroup (nay thuộc Gartner) đưa ra năm 2001. Sau đó IBM bổ sung thêm Veracity và Value để tạo thành 5V hoàn chỉnh.
Ví dụ thực tế về Big Data: TikTok mỗi ngày xử lý lượng dữ liệu video khổng lồ từ hàng tỷ người dùng, dùng AI để đề xuất video trên trang For You. Grab phân tích hành vi di chuyển của hàng triệu khách hàng để dự đoán nhu cầu và tối ưu giá cước theo thời gian thực. Shopee cá nhân hóa feed sản phẩm cho từng user dựa trên lịch sử duyệt web, tìm kiếm và mua hàng.

Vai trò của Data trong doanh nghiệp
Ra quyết định dựa trên dữ liệu
Thay vì dựa vào cảm tính, doanh nghiệp hiện đại ra quyết định dựa trên data — gọi là data-driven decision making. Ví dụ: một chuỗi F&B có thể dùng data để biết món nào bán chạy ở quận nào, từ đó điều chỉnh menu cho từng chi nhánh.
Hiểu khách hàng và cá nhân hóa trải nghiệm
Netflix gợi ý phim cho bạn không phải ngẫu nhiên — đó là kết quả của thuật toán phân tích lịch sử xem của hàng trăm triệu người dùng. Tương tự, Shopee, Tiki, Lazada đều cá nhân hóa trang chủ cho từng tài khoản dựa trên hành vi mua sắm.
Tối ưu vận hành và giảm chi phí
Các hãng logistics dùng data để tối ưu lộ trình giao hàng, tiết kiệm xăng dầu và thời gian. Ngân hàng dùng data để phát hiện gian lận thẻ tín dụng tức thì.
Tạo lợi thế cạnh tranh
Doanh nghiệp biết khai thác data có lợi thế rất lớn so với đối thủ. Đó là lý do mọi công ty từ ngân hàng, viễn thông đến bán lẻ đều đang đầu tư mạnh vào đội ngũ Data Analytics.

Vòng đời của Data (Data Lifecycle)
Một quy trình làm việc với data trong doanh nghiệp thường trải qua 6 giai đoạn:
Thu thập (Collection): Lấy dữ liệu từ website, app, IoT, hệ thống ERP, CRM...
Lưu trữ (Storage): Đưa vào database, data warehouse, data lake.
Xử lý (Processing): Làm sạch, chuẩn hóa, chuyển đổi dữ liệu (thường dùng SQL, Python).
Phân tích (Analysis): Khám phá insight, tìm pattern, xây dashboard.
Trực quan hóa (Visualization): Trình bày bằng biểu đồ qua Power BI, Tableau, Looker.
Ra quyết định (Decision-making): Lãnh đạo dùng kết quả phân tích để hành động.
Mỗi giai đoạn cần công cụ và vai trò khác nhau — đó là lý do ngành Data có nhiều vị trí nghề nghiệp đa dạng.
Bảo vệ dữ liệu cá nhân - Vấn đề nóng năm 2026
Khi data trở thành "dầu mỏ mới", việc bảo vệ dữ liệu cá nhân (data privacy) cũng trở thành ưu tiên hàng đầu. Tại Việt Nam, Luật Bảo vệ dữ liệu cá nhân (Luật số 91/2025/QH15) đã chính thức có hiệu lực từ ngày 01/01/2026. Đây là văn bản luật đầu tiên tại Việt Nam quy định chuyên biệt về dữ liệu cá nhân, gồm 5 chương 39 điều, thay thế và mở rộng phạm vi điều chỉnh so với Nghị định 13/2023/NĐ-CP trước đó.
Một số điểm quan trọng người làm Data cần lưu ý:
Nghiêm cấm mua bán dữ liệu cá nhân dưới mọi hình thức.
Doanh nghiệp phải xóa dữ liệu cá nhân của người lao động sau khi chấm dứt hợp đồng.
Luật áp dụng cả với tổ chức nước ngoài xử lý dữ liệu công dân Việt Nam.
Mức phạt cho hành vi vi phạm được tăng mạnh.
Với người làm Data Analytics, hiểu các quy định pháp lý này không phải là gánh nặng mà là kỹ năng bắt buộc để hành nghề đúng đắn và bền vững.
Các nghề nghiệp liên quan đến Data
Ngành Data có nhiều vai trò, mỗi vai trò tập trung vào một giai đoạn khác nhau trong vòng đời dữ liệu:
Vị trí | Công việc chính | Công cụ chính |
Data Analyst | Phân tích dữ liệu, xây dashboard, làm báo cáo | SQL, Excel, Power BI, Tableau |
Business Intelligence (BI) Analyst | Tập trung báo cáo doanh nghiệp, KPI tracking | Power BI, Tableau, Looker |
Data Scientist | Xây mô hình machine learning, dự đoán | Python, R, ML frameworks |
Data Engineer | Xây hạ tầng dữ liệu, ETL pipeline | SQL, Python, Spark, Airflow |
Data Architect | Thiết kế kiến trúc hệ thống dữ liệu | Database design, Cloud platforms |
Gợi ý cho newbie: Bắt đầu từ Data Analyst là lựa chọn hợp lý nhất. Đây là vị trí có rào cản đầu vào thấp nhất, không yêu cầu nền tảng lập trình sâu, nhưng đem lại mức lương cạnh tranh và lộ trình thăng tiến rõ ràng.
Làm sao để bắt đầu sự nghiệp với Data trong kỷ nguyên AI?
Trong kỷ nguyên Agentic AI (từ 2026), lộ trình học Data đã thay đổi căn bản. Trước đây, người mới thường mất hàng năm để học công cụ — Excel, SQL, Python, Power BI — và phần lớn năng lượng bị "đốt" vào việc vượt qua rào cản kỹ thuật. Hôm nay, AI đã hạ rào cản công cụ xuống rất thấp, nhưng đồng thời cũng tạo ra thực tế mới: người chỉ biết "lướt prompt ChatGPT" sẽ nhanh chóng bị thay thế, còn người có tư duy phân tích vững + chuyên môn sâu + năng lực điều khiển AI sẽ vượt xa số đông.
Đó là lý do triết lý "Tư duy trước — Công cụ sau" trở nên quan trọng hơn bao giờ hết. Dưới đây là lộ trình 5 bước theo hướng tiếp cận này:
Bước 1: Xây dựng tư duy phân tích hệ thống (Analytical Thinking & Mindset)
Đây là nền tảng quan trọng nhất và cũng là thứ AI không thể thay thế. Bạn cần học các framework phân tích cốt lõi: cách đặt câu hỏi đúng, cách bóc tách vấn đề (Issue Tree), cách truy gốc rễ (Root Cause Analysis), cách kết nối các điểm dữ liệu (Connecting the Dots) để rút ra Insight hành động. Tư duy có hệ thống là thứ giúp bạn không bỏ sót góc nhìn, không phân tích hời hợt theo cảm tính.
Bước 2: Hiểu bối cảnh kinh doanh (Business Context & Domain Knowledge)
Data không có ý nghĩa nếu tách rời nghiệp vụ. Bạn cần nắm được Business Flow của ngành mình muốn theo đuổi — bán lẻ, tài chính, FMCG, e-commerce... — để hiểu mỗi con số đại diện cho điều gì trong thực tế kinh doanh. Đây là lý do Business User có Domain Knowledge sâu thường ra Insight giá trị hơn Data Analyst chỉ biết kỹ thuật.
Bước 3: Làm chủ chuyên môn phân tích & trình bày (Analytical Expertise)
Học phương pháp luận thiết kế Dashboard chuẩn mực (không phải "đẹp" mà là "đúng phương pháp"), kỹ thuật tìm Actionable Insight (Insight hành động được, không chỉ mô tả hiện tượng), và Storytelling với dữ liệu để thuyết phục người ra quyết định. Đây là chuyên môn cốt lõi biến bạn từ "người làm báo cáo" thành "người tạo giá trị kinh doanh".
Bước 4: Tận dụng AI Automation & Agentic AI làm "siêu năng lực"
Trong kỷ nguyên Agentic AI, người làm Data không còn là người "code thủ công" mà là người thiết kế hệ thống AI Agents tự truy xuất dữ liệu, tự kiểm tra chất lượng, tự phân tích và tự tạo dashboard. Công thức mới: AI × Human = 100× hiệu suất — AI là công nghệ, bạn là tư duy & chuyên môn. Lưu ý: công cụ truyền thống (SQL, Power BI, Python) vẫn cần, nhưng AI giờ đây giúp bạn vượt qua rào cản học công cụ nhanh hơn nhiều.
Bước 5: Thực chiến với dự án End-to-End
Lý thuyết chỉ có giá trị khi áp dụng. Hãy hoàn thành 2-3 dự án End-to-End: từ dữ liệu thô → Data Pipeline → Data Model → Dashboard → Insight → Storytelling. Đây là tài sản thuyết phục nhất khi đi phỏng vấn — quan trọng hơn nhiều so với danh sách chứng chỉ.
💡 Nguyên tắc 20/80: 20% kiến thức cốt lõi (tư duy + framework + chuyên môn) tạo ra 80% năng lực thực chiến. Đừng sa lầy vào việc học tất cả mọi công cụ — hãy tập trung vào nền tảng tư duy, phần còn lại AI sẽ hỗ trợ bạn rất nhanh.
📚 Bạn muốn xây dựng sự nghiệp Analytics bền vững trong kỷ nguyên AI?
Mastering Data Analytics (MDA) — đơn vị TIÊN PHONG mở chương trình Agentic AI Analytics LẦN ĐẦU TIÊN tại Việt Nam. Với hơn 6 năm dẫn đầu thị trường, MDA đã đào tạo 5.000+ học viên và là đối tác đào tạo cho 250+ doanh nghiệp lớn như Heineken, Prudential, P&G, AEON, BIDV, Coca-Cola, Unilever...
Khác biệt của MDA: không dạy theo lối "5 phút phân tích data với ChatGPT" hay "Vibe Coding Dashboard".
Chúng tôi tập trung vào tư duy phân tích hệ thống + chuyên môn vững chắc + năng lực điều phối AI Agents — bộ ba tạo nên lợi thế cạnh tranh thực sự thời AI.
📞 Tư vấn lộ trình MIỄN PHÍ qua Zalo: 0961 48 66 48
💬 Inbox fanpage Mastering Data Analytics để nhận lịch khai giảng sớm nhất!
Câu hỏi thường gặp (FAQ)
Data và Database khác nhau như thế nào?
Data là dữ liệu, còn Database là nơi lưu trữ và quản lý data. Tương tự như sách và thư viện — sách là nội dung, thư viện là nơi chứa và tổ chức sách.
Học ngành Data có cần giỏi Toán không?
Không cần phải xuất sắc, nhưng cần nắm vững kiến thức Toán phổ thông và một số khái niệm thống kê cơ bản (trung bình, độ lệch chuẩn, phân phối, tương quan). Đối với Data Analyst, mức độ Toán cần thiết không quá cao. Đối với Data Scientist, yêu cầu Toán và Thống kê sẽ sâu hơn.
Người trái ngành có học được Data không?
Có. Thực tế nhiều Data Analyst hiện tại xuất thân từ Kinh tế, Marketing, Tài chính, thậm chí Ngữ văn hay Y khoa. Quan trọng là tư duy logic, khả năng học hỏi và sự kiên trì. Lộ trình tự học từ 6-12 tháng là khả thi nếu bạn dành 1-2 giờ mỗi ngày.
Kết luận
Data đã, đang và sẽ tiếp tục là tài nguyên quý giá nhất của thời đại số. Trong bài viết này, chúng ta đã cùng nhau khám phá:
Data là gì và sự khác biệt với Information, Knowledge, Wisdom qua mô hình DIKW.
Các loại data và Big Data với mô hình 5V.
Vai trò của data trong doanh nghiệp cùng vòng đời 6 giai đoạn.
Các nghề nghiệp ngành Data và lộ trình 5 bước để bắt đầu.
Lời khuyên cuối cùng: đừng chỉ đọc — hãy bắt đầu. Mở một file Excel, tải một bộ dữ liệu mở (như từ Kaggle hoặc Tổng cục Thống kê), và đặt câu hỏi: "Tôi có thể tìm ra điều gì thú vị từ dữ liệu này?" Đó chính là bước đi đầu tiên của một Data Analyst




Bình luận