GIỚI THIỆU — Việc giới thiệu các xét nghiệm chẩn đoán mới nhằm cải thiện sàng lọc hoặc cung cấp chẩn đoán xác định là một vấn đề nan giải lớn đối với tất cả các bác sĩ lâm sàng. Quyết định chấp nhận hay từ chối những bài kiểm tra này thường được đưa ra riêng lẻ với thông tin không đầy đủ và không có sự suy nghĩ kỹ lưỡng.
Trong bài đánh giá chủ đề này, chúng tôi sẽ phác thảo một quy trình bảy bước đơn giản có thể được sử dụng để đánh giá tiện ích của bất kỳ xét nghiệm chẩn đoán nào:
●Thử nghiệm có thể được thực hiện một cách đáng tin cậy?
●Thử nghiệm có được đánh giá trên một nhóm dân số thích hợp không?
●Tiêu chuẩn vàng có phù hợp được sử dụng không?
●Giá trị ngưỡng thích hợp có được chọn để tối ưu hóa độ nhạy và độ đặc hiệu không?
●Tỷ lệ khả năng tích cực và tiêu cực là gì?
●Thử nghiệm thực hiện tốt như thế nào trong các nhóm dân số cụ thể?
●Sự cân bằng giữa chi phí của bệnh và chi phí xét nghiệm là bao nhiêu?
Một danh mục các thuật ngữ thống kê sinh học và dịch tễ học phổ biến gặp trong tài liệu y khoa, cách tiếp cận dựa trên bằng chứng để phòng ngừa và các vấn đề xung quanh việc kiểm tra giả thuyết được trình bày riêng. (Xem "Bảng thuật ngữ về các thuật ngữ thống kê sinh học và dịch tễ học phổ biến" và "Phương pháp phòng ngừa dựa trên bằng chứng" và "Bằng chứng, giá trị p và thử nghiệm giả thuyết" .)
KIỂM TRA CÓ THỂ ĐƯỢC THỰC HIỆN ĐÁNG TIN CẬY KHÔNG?
Độ chính xác và độ chính xác - Sẽ rất hữu ích khi xác định mức độ chính xác, chính xác của bài kiểm tra và người dùng phụ thuộc vào việc trả lời khách quan câu hỏi này. "Độ chính xác" đề cập đến khả năng xét nghiệm thực sự đo lường được những gì nó tuyên bố đo lường và được định nghĩa là tỷ lệ chính xác của tất cả các kết quả xét nghiệm (cả dương tính và âm tính) ( bảng 1 ). Độ chính xác đề cập đến khả năng của xét nghiệm để tái tạo cùng một kết quả khi lặp lại trên cùng một bệnh nhân hoặc mẫu. Hai khái niệm có liên quan, nhưng khác nhau. Ví dụ: một bài kiểm tra có thể chính xác nhưng không chính xác nếu trong ba lần nó cho kết quả gần như giống nhau, nhưng kết quả đó khác rất nhiều so với giá trị thực tế được xác định bởi tiêu chuẩn tham chiếu. Cả độ chính xác và độ chính xác đều có thể được trình bày dưới dạng khoảng tin cậy (CI) hoặc sai số chuẩn (SE).
Chuyên môn - Một trong những thách thức lớn trong việc đánh giá xét nghiệm chẩn đoán là xác định mức độ chuyên môn của người dùng ảnh hưởng đến độ chính xác và độ chính xác. Các nghiên cứu trong tài liệu thường bắt nguồn từ các trung tâm chăm sóc cấp ba có năng lực tiên tiến về thiết bị chẩn đoán và nhân sự. Những môi trường như vậy có thể có chút tương đồng với các cơ sở vật chất ở cấp địa phương. Ví dụ, "sự phụ thuộc vào người dùng" cao gây khó khăn cho việc áp dụng những tiến bộ trong siêu âm sàng lọc tại các trung tâm chuyên khoa cho dân chúng nói chung [ 1 ]. Bài kiểm tra có thể chính xác và chính xác trong tay chuyên gia, nhưng có thể không chính xác, không chính xác và không đáng tin cậy khi được thực hiện bởi một người hành nghề ít kinh nghiệm hơn. Những yếu tố này cần được tính đến khi xác định xem có nên thực hiện một thử nghiệm nhất định trong một tình huống nhất định hay không.
KIỂM TRA CÓ ĐƯỢC ĐÁNH GIÁ TRÊN DÂN SỐ THÍCH HỢP KHÔNG?
Dân số - Bước này kiểm tra dân số mà dữ liệu thử nghiệm được lấy từ đó, một điểm thường bị bỏ qua. Một xét nghiệm nên được tiến hành trên một phổ rộng các bệnh nhân có và không có rối loạn đang được đề cập để tối đa hóa khả năng khái quát. Những người mắc chứng rối loạn này phải đại diện cho tất cả các giai đoạn và biểu hiện của bệnh. Quan trọng hơn nữa, những người không mắc chứng rối loạn này phải có một số biểu hiện lâm sàng tương tự và có thể dễ bị nhầm lẫn với căn bệnh đang nghi vấn. Điều này rất quan trọng trong việc chứng minh khả năng của xét nghiệm để phân biệt giữa các thực thể lâm sàng trong chẩn đoán phân biệt.
Ví dụ, lợi ích của việc đạt được nồng độ CA125 trong huyết thanh để phát hiện lạc nội mạc tử cung phụ thuộc vào việc nghiên cứu một quần thể bao gồm nhiều bệnh nhân bị lạc nội mạc tử cung ở mức độ tối thiểu, nhẹ, trung bình và nặng. Nếu dân số nghiên cứu có số lượng phụ nữ mắc bệnh nặng không cân xứng, điều này có thể thổi phồng một cách sai lệch khả năng của xét nghiệm để xác định các trường hợp. Điều cần thiết là phải bao gồm một nhóm lớn bệnh nhân không bị lạc nội mạc tử cung nhưng có các dấu hiệu hoặc triệu chứng tương tự (ví dụ như đau bụng kinh, giao hợp đau, đau vùng chậu, vô sinh, khối u ở phần phụ, u xơ tử cung). Việc bỏ qua việc bao gồm những bệnh nhân này có thể làm tăng hiệu suất của xét nghiệm một cách sai lệch.
Cỡ mẫu - Cỡ mẫu là một phần của câu hỏi về sự phù hợp của dân số. Phải nghiên cứu đủ số lượng bệnh nhân để bao gồm nhiều biểu hiện ở những đối tượng mắc bệnh và không mắc bệnh. Tuy nhiên, cỡ mẫu quá lớn có thể phát hiện sự khác biệt có ý nghĩa thống kê trong xét nghiệm nhưng không có ý nghĩa lâm sàng, trong khi cỡ mẫu quá nhỏ có thể mang lại kết quả không thuyết phục do độ chính xác thấp.
Một cách gián tiếp để đánh giá cỡ mẫu là kiểm tra khoảng tin cậy về độ nhạy, độ đặc hiệu và tỷ lệ khả năng (xem bên dưới) được báo cáo trong nghiên cứu.
TIÊU CHUẨN TÀI LIỆU THAM KHẢO CÓ ĐƯỢC SỬ DỤNG PHÙ HỢP KHÔNG?
Tiêu chuẩn tham chiếu - Việc đánh giá một bài kiểm tra nhất thiết phải liên quan đến việc so sánh với tiêu chuẩn tham chiếu. Lý tưởng nhất là một tiêu chuẩn tham khảo cho phép xác định rõ ràng bệnh nhân mắc bệnh và không mắc bệnh. Tuy nhiên, trong thế giới thực, các tiêu chuẩn tham chiếu thường có một số lỗi hoặc sự phụ thuộc vào người dùng.
Ví dụ, mô bệnh học thường được sử dụng làm tiêu chuẩn tham khảo để chẩn đoán lạc nội mạc tử cung; tuy nhiên, mô bệnh học không phải là không thể sai lầm. Các trường hợp có thể bị chẩn đoán sai do lỗi lấy mẫu hoặc sự khác biệt giữa các nhà giải phẫu bệnh trong việc giải thích mô học. Sự hiện diện của các tuyến nội mạc tử cung lạc chỗ, nhưng không phải là mô đệm (hoặc ngược lại), ở một phụ nữ có các dấu hiệu và triệu chứng lâm sàng của lạc nội mạc tử cung là gợi ý của rối loạn này, nhưng không đáp ứng các tiêu chí nghiêm ngặt về bệnh (tức là các tuyến và mô đệm nội mạc tử cung nằm ở vị trí ngoài tử cung). ). Để so sánh, liệu một phụ nữ không có triệu chứng có bị lạc nội mạc tử cung hay không nếu sinh thiết ngẫu nhiên phúc mạc bình thường của cô ấy tìm thấy các tuyến nội mạc tử cung và mô đệm? Những câu hỏi này giải quyết các vấn đề về cả định nghĩa bệnh và thế nào là bình thường.
Những cân nhắc về thế giới thực buộc chúng ta phải sử dụng các định nghĩa thực tế. Tiêu chuẩn tham khảo đại diện cho "điều tốt nhất chúng tôi có" để phân biệt bình thường với bất thường. Tiêu chuẩn tham chiếu là xét nghiệm cho đến nay đã được chứng minh là có khả năng phát hiện bệnh một cách đáng tin cậy nhất. Do đó, bất kỳ thử nghiệm mới nào có thể có giá trị đều phải được so sánh với tiêu chuẩn tham chiếu nếu chúng ta muốn giảm thiểu khả năng chẩn đoán sai.
Định nghĩa bình thường - "Bình thường" là một thuật ngữ lừa đảo. Mặc dù nó được sử dụng phổ biến để chỉ sức khỏe tốt hoặc không có bệnh tật, việc xác định mức bình thường có thể phức tạp và tùy tiện. Nhiều xét nghiệm xác định mức bình thường dựa trên các giá trị ngưỡng được chỉ định giả định tỷ lệ mắc bệnh cố định. Ví dụ, hạn chế tăng trưởng trong tử cung (IUGR) có thể được định nghĩa là cân nặng ước tính của thai nhi nhỏ hơn phân vị thứ 10, nhỏ hơn phân vị thứ 5 hoặc ít hơn hai độ lệch chuẩn so với giá trị trung bình. Những định nghĩa như vậy có thể thuận tiện nhưng rõ ràng không phản ánh mức độ phổ biến thực sự của bệnh ở các quần thể khác nhau.
Ngoài ra, giá trị ngưỡng có thể không phản ánh chính xác tình trạng bệnh. Ví dụ, khái niệm hạn chế tăng trưởng ngụ ý một quá trình bệnh lý dẫn đến việc không đạt được kích thước được lập trình về mặt di truyền. Một trẻ sơ sinh có cân nặng khi sinh ở phân vị thứ 12 có ba anh trai có cân nặng khi sinh ở phân vị thứ 90 sẽ được phân loại là bình thường theo các định nghĩa tiêu chuẩn được mô tả ở trên, mặc dù trẻ sơ sinh dường như chưa đạt được tiềm năng di truyền. Ngược lại, một trẻ sơ sinh có cân nặng thực tế và tiềm năng di truyền thực sự ở phân vị thứ 4 có thể bị dán nhãn sai IUGR.
GIÁ TRỊ CẮT PHÙ HỢP CÓ ĐƯỢC CHỌN ĐỂ TỐI ƯU HÓA ĐỘ NHẠY VÀ ĐỘ ĐẶC BIỆT KHÔNG?
Cân bằng độ nhạy và độ đặc hiệu - Phải chọn giá trị ngưỡng để phân biệt bình thường với bất thường. Việc chọn giá trị này hầu như luôn liên quan đến việc cân bằng độ nhạy và độ đặc hiệu, mặc dù giá trị thực tế có thể tùy ý.
●Độ nhạy là xác suất mà một cá nhân mắc bệnh sẽ có kết quả xét nghiệm dương tính. Đó là số bệnh nhân có kết quả xét nghiệm dương tính mắc bệnh (dương tính thật) chia cho tất cả các bệnh nhân mắc bệnh. Một xét nghiệm có độ nhạy cao sẽ không bỏ sót nhiều bệnh nhân mắc bệnh (tức là tỷ lệ âm tính giả thấp).
●Độ đặc hiệu là xác suất mà một cá nhân không mắc bệnh sẽ có kết quả xét nghiệm âm tính. Đó là số bệnh nhân có kết quả xét nghiệm âm tính và không mắc bệnh (âm tính thật) chia cho số bệnh nhân không mắc bệnh. Một xét nghiệm có độ đặc hiệu cao sẽ hiếm khi xác định được bệnh nhân mắc bệnh khi họ không mắc bệnh (tức là kết quả dương tính giả thấp).
Bảng hai nhân hai — Bảng hai nhân hai ( bảng 2 ) là cách đơn giản nhất để tính độ nhạy và độ đặc hiệu. Tuy nhiên, việc hiểu mối quan hệ qua lại giữa độ nhạy, độ đặc hiệu và giá trị ngưỡng là dễ dàng nhất ở dạng đồ họa ( hình 1 ).
Bảng 2×2 cũng có thể được sử dụng để tính tỷ lệ dương tính giả và âm tính giả.
●Tỷ lệ dương tính giả = dương tính giả / (dương tính giả + âm tính thực). Nó cũng bằng 1- độ đặc hiệu.
●Tỷ lệ âm tính giả = âm tính giả / (âm tính giả + dương tính thật). Nó cũng bằng 1 – độ nhạy.
Một xét nghiệm lý tưởng sẽ tối đa hóa cả độ nhạy và độ đặc hiệu, từ đó giảm thiểu tỷ lệ dương tính giả và âm tính giả.
Đường cong đặc tính vận hành máy thu - Đường cong đặc tính vận hành máy thu (ROC) cho phép người ta xác định giá trị ngưỡng giúp giảm thiểu cả kết quả dương tính giả và âm tính giả. Đường cong ROC biểu thị độ nhạy trên trục y và 1 – độ đặc hiệu trên trục x ( hình 2 ). Việc áp dụng nhiều giá trị ngưỡng khác nhau cho cùng một quần thể tham chiếu cho phép người ta tạo ra đường cong. Xét nghiệm hoàn hảo sẽ có giá trị giới hạn cho phép phân chia chính xác quần thể mắc bệnh và không mắc bệnh (nghĩa là giới hạn mang lại cả độ nhạy 100% và độ đặc hiệu 100%). Nó sẽ vẽ dưới dạng một góc vuông với điểm tựa ở góc trên bên trái (x = 0, y = 1). Tuy nhiên, trường hợp này rất hiếm. Trong phần lớn các trường hợp, khi di chuyển từ trái sang phải trên đường cong ROC, độ nhạy sẽ tăng trong khi độ đặc hiệu giảm.
Tính toán diện tích dưới đường cong ROC cho phép so sánh các thử nghiệm khác nhau. Một bài kiểm tra hoàn hảo có diện tích dưới đường cong bằng 1. Do đó, diện tích dưới đường cong càng gần 1 thì phép thử càng tốt. Tương tự, nếu muốn biết giá trị ngưỡng cho một xét nghiệm giúp giảm thiểu cả dương tính giả và âm tính giả (và do đó tối đa hóa cả độ nhạy và độ đặc hiệu), người ta sẽ chọn điểm trên đường cong ROC gần góc trên bên trái nhất ( x = 0, y = 1).
Tuy nhiên, việc tìm ra sự cân bằng phù hợp giữa độ nhạy và độ đặc hiệu tối ưu có thể không liên quan đến việc giảm thiểu đồng thời dương tính giả và âm tính giả trong mọi tình huống. Ví dụ, khi sàng lọc một căn bệnh chết người có thể chữa được, có thể chấp nhận nhiều kết quả dương tính giả hơn (độ đặc hiệu thấp hơn) để đổi lấy ít kết quả âm tính giả hơn (độ nhạy cao hơn). Đường cong ROC cho phép đánh giá kỹ lưỡng hơn về xét nghiệm và các giá trị ngưỡng tiềm năng, nhưng không phải là trọng tài cuối cùng về cách thiết lập độ nhạy và độ đặc hiệu.
TỶ LỆ KHẢ NĂNG TÍCH CỰC VÀ TIÊU CỰC LÀ GÌ?
Các nhà dịch tễ học đã nghĩ ra một phương pháp khác để đánh giá các xét nghiệm chẩn đoán: tỷ lệ khả năng dương tính và âm tính, giống như độ nhạy và độ đặc hiệu, không phụ thuộc vào tỷ lệ mắc bệnh.
●Tỷ lệ khả năng tích cực = độ nhạy / (1 – độ đặc hiệu). Tỷ lệ này chia xác suất một bệnh nhân mắc bệnh sẽ có kết quả xét nghiệm dương tính với xác suất một bệnh nhân không mắc bệnh sẽ có kết quả xét nghiệm dương tính. Nó cũng có thể được viết là tỷ lệ dương tính thật / tỷ lệ dương tính giả. Do đó, tỷ lệ khả năng dương tính càng cao thì thử nghiệm càng tốt (một thử nghiệm hoàn hảo có tỷ lệ khả năng dương tính bằng vô cùng).
●Tỷ lệ khả năng âm = (1 – độ nhạy) / độ đặc hiệu. Tỷ lệ này chia xác suất một bệnh nhân mắc bệnh sẽ có kết quả âm tính với xác suất một bệnh nhân không mắc bệnh sẽ có kết quả âm tính. Nó cũng có thể được viết là tỷ lệ âm tính giả / tỷ lệ âm tính thực sự. Do đó, tỷ lệ khả năng âm tính càng thấp thì thử nghiệm càng tốt (một thử nghiệm hoàn hảo có tỷ lệ khả năng âm tính bằng 0).
Trong hầu hết các trường hợp, người ta có thể đánh giá các tỷ lệ khả năng xảy ra như trong bảng ( bảng 3 ). Ví dụ: giả sử bạn đang cố gắng diễn giải tầm quan trọng của giá trị CA125 là 80 ở một phụ nữ 46 tuổi bị u nang buồng trứng. Nếu 70% bệnh nhân ung thư buồng trứng có CA125 ở mức này, nhưng 35% bệnh nhân có u nang lành tính có CA125 ở cùng mức thì tỷ lệ khả năng dương tính sẽ chỉ là hai (tức là 0,70 / 0,35) . ). Đây sẽ được coi là một xét nghiệm kém để chẩn đoán ung thư.
Mặc dù tỷ lệ khả năng không phụ thuộc vào tỷ lệ mắc bệnh, nhưng giá trị trực tiếp của chúng chỉ nằm trong quần thể nghiên cứu ban đầu. Chúng có thể khái quát hóa cho các quần thể khác trong phạm vi:
●Thử nghiệm có thể được thực hiện một cách đáng tin cậy với mức độ biến đổi tối thiểu của máy chủ liên quan và máy chủ nội bộ.
●(Các) quần thể nghiên cứu mà từ đó các giá trị được rút ra phải có đủ kích thước và thành phần của kiểu hình bình thường và bệnh tật.
●Một tiêu chuẩn tham chiếu thích hợp đã được sử dụng.
Nếu xét nghiệm chẩn đoán được nghiên cứu trong một nhóm dân số hẹp hoặc xét nghiệm phụ thuộc nhiều vào kỹ năng/diễn giải của người dùng thì độ nhạy, độ đặc hiệu và tỷ lệ khả năng được báo cáo trong nghiên cứu có thể không được khái quát hóa bên ngoài nhóm nghiên cứu ban đầu. Nói cách khác, các thông số thực hiện bài kiểm tra có thể có giá trị bên trong nhưng không có giá trị bên ngoài.
KIỂM TRA THỰC HIỆN TỐT NHƯ THẾ NÀO TRONG CÁC DÂN SỐ CỤ THỂ?
Tỷ lệ mắc bệnh - Nếu độ nhạy, độ đặc hiệu và tỷ lệ khả năng được xác định rõ thì yếu tố áp chót quyết định tính hữu ích của xét nghiệm là tỷ lệ mắc bệnh ( máy tính 1 và máy tính 2 ). Tính hữu ích của xét nghiệm dương tính giảm khi tỷ lệ mắc bệnh giảm. Khái niệm này là cơ sở của các giá trị dự đoán hoặc xác suất sau thử nghiệm.
●Giá trị tiên đoán dương tính (PPV) đề cập đến xác suất mà xét nghiệm dương tính xác định chính xác một cá nhân thực sự mắc bệnh. Nó được tính toán từ các bảng 2x2: dương tính thực /( dương tính thực + dương tính giả) ( bảng 4 ).
●Giá trị tiên đoán âm tính (NPV) đề cập đến xác suất xét nghiệm âm tính xác định chính xác một cá nhân không mắc bệnh. Nó được tính toán từ các bảng 2x2: phủ định đúng /( phủ định sai + phủ định đúng) ( bảng 4 ).
Ví dụ: giả sử độ nhạy và độ đặc hiệu không đổi, PPV và NPV của một bệnh có tỷ lệ lưu hành là 10, 1 hoặc 0,1% được trình bày trong bảng ( bảng 5 ). Ví dụ này minh họa một kết quả dương tính từ cùng một xét nghiệm với độ nhạy gần như hoàn hảo (99%) và độ đặc hiệu cao (90%) có thể có ý nghĩa hoàn toàn khác nhau tùy thuộc vào tỷ lệ mắc bệnh cơ bản trong dân số. Khi áp dụng cho một quần thể trong đó bệnh phổ biến (tỷ lệ mắc bệnh = 10%), giá trị tiên đoán dương là 53%. Để so sánh, khi áp dụng cho một nhóm dân số khác trong đó bệnh không phổ biến (tỷ lệ mắc bệnh = 0,1%), giá trị tiên đoán dương chỉ là 1%; do đó 99% số người có kết quả xét nghiệm dương tính thực sự không mắc bệnh. Tất cả các thử nghiệm đã thực hiện trong nhóm dân số này là nâng nhẹ xác suất mắc bệnh từ rất khó xảy ra (0,1%) lên rất khó xảy ra (1%), và trong quá trình đó, nhiều cá nhân không mắc bệnh phải được xét nghiệm thêm. Ví dụ thứ hai, sử dụng sự kết hợp khác nhau giữa độ nhạy, độ đặc hiệu và mức độ phổ biến, được minh họa trong hình ( hình 3 ).
Một ví dụ lâm sàng về tầm quan trọng của mức độ phổ biến đối với tiện ích xét nghiệm là xét nghiệm fibronectin của thai nhi để dự đoán sinh non. Một đánh giá có hệ thống đã báo cáo độ nhạy và độ đặc hiệu tổng thể của xét nghiệm này (ở bệnh nhân có triệu chứng và không có triệu chứng) khi sinh trước 34 tuần lần lượt là 52 và 85% [ 2 ]. Nếu tỷ lệ sinh non ở nhóm dân số có nguy cơ thấp không có triệu chứng là 10%, thì PPV của kết quả fibronectin thai nhi dương tính sẽ là 28%, trong khi ở nhóm dân số có triệu chứng có nguy cơ cao với tỷ lệ sinh non là 50%, PPV sẽ là 78 phần trăm.
Trang web ( http://faculty.vassar.edu/lowry/clin1.html ) cho phép người ta thực hiện các phép tính từ dữ liệu đã nhập và từ đó minh họa mối quan hệ giữa xác suất trước khi kiểm tra (tỷ lệ phổ biến), tỷ lệ khả năng và xác suất sau kiểm tra (giá trị dự đoán ).
SỰ CÂN BẰNG GIỮA CHI PHÍ BỆNH VÀ CHI PHÍ XÉT NGHIỆM LÀ GÌ?
Phán quyết cuối cùng liên quan đến việc xem xét giá trị của xét nghiệm là sự cân bằng giữa chi phí của bệnh và chi phí của xét nghiệm. Những chi phí này liên quan đến các khoản phí đối với một cá nhân, đối với công ty bảo hiểm, đối với tổ chức hoặc đối với xã hội. Chúng ta đang sống trong một thế giới với nguồn tài nguyên hữu hạn nhưng nhu cầu ngày càng tăng về chăm sóc sức khỏe tốt hơn, xét nghiệm chính xác hơn và chẩn đoán nhanh. Chi phí thường là yếu tố quyết định trong việc quyết định khi nào, ở đâu và sử dụng xét nghiệm chẩn đoán như thế nào.
Một xã hội và những người trả tiền và nhà cung cấp dịch vụ chăm sóc sức khỏe của nó có thể sẵn sàng chấp nhận giá trị tiên đoán tích cực thấp để đổi lấy những mạng sống được cứu cho một căn bệnh hiếm gặp gây tử vong phổ biến nhưng có thể chữa khỏi dễ dàng. Để so sánh, một xét nghiệm chính xác nhưng cực kỳ tốn kém có thể ít được mong muốn hơn một xét nghiệm có chất lượng kém hơn nếu hậu quả của việc chẩn đoán sai không nghiêm trọng.
Phân tích chi phí liên quan đến chi phí tiền tệ trực tiếp cũng như tất cả các chi phí gián tiếp của bệnh tật, xét nghiệm và chẩn đoán sai. Thật không may, những chi phí này thường là những ước tính sơ bộ, làm cản trở tính chính xác của loại phân tích này. Ngoài ra, các nghiên cứu về chi phí thường có giá trị bên ngoài kém; các giá trị được sử dụng trong phân tích có thể không dễ dàng khái quát hóa cho các khu vực khác của đất nước, các hệ thống y tế khác hoặc các quốc gia khác. Cuối cùng, do thị trường không bao giờ đứng yên nên chi phí thường thay đổi, có khả năng làm thay đổi hoặc vô hiệu hóa hoàn toàn mục đích phân tích.
TÓM TẮT VÀ KHUYẾN NGHỊ — Việc đánh giá đầy đủ tính hữu ích của xét nghiệm chẩn đoán không phải là một nhiệm vụ dễ dàng; nhiều biến số phải được xem xét. Đánh giá chủ đề này cố gắng cung cấp một khuôn khổ để từ đó bất kỳ bài kiểm tra nào cũng có thể được phân tích một cách khách quan và có hệ thống. Bảy bước được nêu ra không cần phải tuân theo thứ tự chính xác. Ví dụ, người ta có thể muốn xem xét chi phí và giá trị dự đoán trước khi nghiên cứu sâu hơn về giá trị của việc áp dụng thử nghiệm cho một nhóm dân số cụ thể. Tuy nhiên, việc xem xét cẩn thận tất cả bảy câu hỏi là rất quan trọng trong việc đưa ra quyết định cuối cùng về ích lợi của xét nghiệm chẩn đoán.
●Để xác định độ tin cậy của một bài kiểm tra, việc đánh giá mức độ chính xác, đúng đắn và phụ thuộc vào người dùng của bài kiểm tra là rất hữu ích. (Xem 'Thử nghiệm có thể được thực hiện một cách đáng tin cậy không?' ở trên.)
●Một xét nghiệm nên được đánh giá trên một phổ rộng các bệnh nhân có và không có rối loạn đang được đề cập để tối đa hóa khả năng khái quát. (Xem 'Bài kiểm tra có được đánh giá trên đối tượng dân số phù hợp không?' ở trên.)
●Một tiêu chuẩn tham khảo cho phép xác định rõ ràng bệnh nhân mắc bệnh và không mắc bệnh. Tuy nhiên, trong thế giới thực, các tiêu chuẩn tham chiếu thường có một số lỗi hoặc sự phụ thuộc vào người dùng. (Xem 'Tiêu chuẩn tham chiếu phù hợp có được sử dụng không?' ở trên.)
●Giá trị ngưỡng phải được chọn để phân biệt bình thường với bất thường. Việc chọn giá trị này hầu như luôn liên quan đến việc cân bằng độ nhạy và độ đặc hiệu, mặc dù giá trị thực tế có thể tùy ý ( hình 1 ). (Xem phần 'Giá trị ngưỡng thích hợp có được chọn để tối ưu hóa độ nhạy và độ đặc hiệu không?' ở trên.)
●Tỷ lệ khả năng tích cực và tiêu cực, giống như độ nhạy và độ đặc hiệu, không phụ thuộc vào tỷ lệ mắc bệnh. Trong hầu hết các trường hợp, người ta có thể đánh giá tỷ lệ khả năng xảy ra trên một loạt các giá trị có thể có, không giống như độ nhạy và độ đặc hiệu xác định sự hiện diện thô sơ hay vắng mặt của một điều kiện ( bảng 3 ). (Xem 'Tỷ lệ khả năng tích cực và tiêu cực là gì?' ở trên.)
●Nếu độ nhạy, độ đặc hiệu và tỷ lệ khả năng được xác định rõ thì yếu tố áp chót quyết định tính hữu ích của xét nghiệm là tỷ lệ mắc bệnh ( máy tính 1 và máy tính 2 ). Tính hữu ích của xét nghiệm dương tính giảm khi tỷ lệ mắc bệnh giảm. Khái niệm này là cơ sở của các giá trị dự đoán hoặc xác suất sau thử nghiệm. (Xem 'Thử nghiệm hoạt động tốt như thế nào trong các nhóm dân số cụ thể?' ở trên.)
●Phán quyết cuối cùng liên quan đến việc xem xét giá trị của xét nghiệm là sự cân bằng giữa chi phí của bệnh và chi phí của xét nghiệm. Những chi phí này liên quan đến các khoản phí đối với một cá nhân, đối với công ty bảo hiểm, đối với tổ chức hoặc đối với xã hội. Chi phí thường là yếu tố quyết định trong việc quyết định khi nào, ở đâu và sử dụng xét nghiệm chẩn đoán như thế nào. (Xem 'Sự cân bằng giữa chi phí của bệnh và chi phí xét nghiệm là bao nhiêu?' ở trên.)