Belajar PHP: Menghapus Tag HTML dari Microsoft Word

Jika anda termasuk yang menggunakan editor berbasis JQuery seperti TinyMCE, nicEdit dkk, anda tentu akan kesal jika hasil tulisan yang diharapkan menjadi rusak tidak karuan karena klien anda langsung mengcopy dan mempaste tulisan dari Microsoft Word.

Microsoft Word sejak versi 2007 menggunakan layout dokumen berbasis markup language, sehingga jika langsung ditaruh dalam editor, akan merusak tag HTML untuk tulisan itu. Berikut solusi yang anda bisa terapkan.

[sourcecode language=”php”]
function cleanHTML($html) {
$html = ereg_replace("<(/)?(font|span|del|ins)[^>]*>","",$html);

$html = ereg_replace("<([^>]*)(class|lang|style|size|face)=("[^"]*"|'[^’]*’|[^>]+)([^>]*)>","<\1>",$html);
$html = ereg_replace("<([^>]*)(class|lang|style|size|face)=("[^"]*"|'[^’]*’|[^>]+)([^>]*)>","<\1>",$html);

return $html
}
[/sourcecode]

Script diatas akan menghapus beberapa tag yang umum ada di Microsot Word (namun belum semuanya).