File dapatkan konten php pdf

Salam programmer, pada tutorial kali ini kita akan melihat cara mengekstrak teks dari format file PDF di PHP

Seringkali pemrogram perlu mengekstrak teks dari berbagai bentuk data untuk melakukan berbagai jenis manipulasi dengan data bermakna yang diekstraksi. Dalam tutorial ini, kami akan mengekstrak teks dari file PDF dalam file teks

Sebelum menjalankan program, kita perlu menginstal server XAMPP. Instal XAMPP di komputer Anda. Setelah selesai, buka lokasi file server XAMPP, masuk ke direktori 'htdocs' dan buat file PHP baru yang diperlukan untuk manipulasi. Lokasi file adalah sebagai berikut. 'C. \Program Files\XAMPP\htdocs’

Kita perlu memahami beberapa istilah tajuk yang harus disertakan untuk melihat file PDF di browser dan mendapatkan hasilnya di file teks

Kami menyertakan dua header berikut untuk membaca file pdf

header('Content-Type: application/pdf');

Baris berikut digunakan untuk mengirimkan informasi ke browser bahwa file tersebut adalah file PDF yang akan digunakan untuk manipulasi. Ini terutama digunakan untuk memberi tahu browser tentang jenis file

header('Content-Disposition: inline; filename = "' . $pdfFile . '"');
_

Baris berikut digunakan untuk menampilkan file di browser. Ini pada dasarnya berarti bahwa konten yang diteruskan adalah bagian dari halaman web

File PDF (Portable Document Format) digunakan untuk menyimpan data teks/gambar untuk penggunaan offline. Terkadang file PDF digunakan untuk menampilkan konten teks/grafik pada halaman web untuk penggunaan online. Umumnya, penampil web digunakan untuk menyematkan file PDF di browser. Saat file PDF disematkan di halaman web, konten teks/grafik tidak ditambahkan ke halaman HTML. Karena konten PDF tidak ditampilkan di halaman web, ini berdampak negatif pada SEO. Untuk mengatasi masalah ini, Anda dapat mengekstrak konten teks dari PDF dan memasukkannya ke halaman web

Pustaka PDF Parser sangat membantu untuk mengekstrak elemen dari file PDF menggunakan PHP. Pustaka PHP ini mem-parsing file PDF dan mengekstrak konten teks dari semua halaman. Objek, header, metadata, dan teks dapat diuraikan dari file PDF menggunakan PHP. Tutorial ini akan menunjukkan cara mengekstrak teks dari file PDF menggunakan PHP

Dalam skrip contoh ini, kami akan menggunakan perpustakaan PDF Parser untuk mengekstrak teks dari PDF dengan PHP. Selain itu, kami akan menunjukkan bagaimana Anda dapat mengunggah file PDF dan mengekstrak data teks dengan cepat menggunakan PHP

Instal Perpustakaan Parser PDF

Jalankan perintah berikut untuk menginstal perpustakaan PDF Parser menggunakan komposer

composer require smalot/pdfparser

Perhatikan bahwa. Anda tidak perlu mengunduh perpustakaan PDF Parser secara terpisah, semua file yang diperlukan disertakan dalam kode sumber. Unduh kode sumber jika Anda ingin menginstal dan menggunakan PDF Parser tanpa komposer

Sertakan autoloader untuk memuat perpustakaan PDF Parser dan fungsi pembantu dalam skrip PHP

include 'vendor/autoload.php';

Cuplikan kode berikut mengekstrak semua konten teks dari file PDF menggunakan PHP

  • Inisialisasi dan muat pustaka PDF Parser
  • Tentukan file PDF sumber dari mana konten teks akan diambil
  • Parsing file PDF menggunakan fungsi parseFile()_ dari kelas PDF Parser
  • Ekstrak teks dari PDF menggunakan metode getText()_ dari kelas PDF Parser
// Initialize and load PDF Parser library
$parser = new \Smalot\PdfParser\Parser();

// Source PDF file to extract text
$file = 'path-to-file/Brochure.pdf';

// Parse pdf file using Parser library
$pdf = $parser->parseFile($file);

// Extract text from PDF
$textContent = $pdf->getText();

_

Unggah File PDF dan Ekstrak Teks

Cuplikan kode contoh ini menunjukkan proses langkah demi langkah untuk mengunggah file PDF dan mengekstrak teks menggunakan PHP

Formulir Unggah File PDF
Tentukan elemen HTML untuk formulir pengunggahan file

    

PDF File

Pada pengiriman formulir, file yang dipilih dikirim ke skrip sisi server untuk diproses lebih lanjut

Skrip sisi server (kirim. php) untuk Mengekstrak Teks dari PDF yang Diunggah
Kode berikut digunakan untuk mengunggah file yang dikirimkan dan mengekstrak teks dari PDF

  • Ambil nama file menggunakan $_FILES di PHP
  • Dapatkan ekstensi file menggunakan fungsi _______________ dengan filter PATHINFO_EXTENSION
  • Validasi file untuk memeriksa apakah itu file PDF yang valid
  • Ambil jalur file menggunakan tmp_name di $_FILES
  • Parsing file PDF yang diunggah dan ekstrak konten teks menggunakan perpustakaan PDF Parser
  • Format konten teks dengan mengganti baris baru (\n) dengan jeda baris (
    ) menggunakan fungsi nl2br() di PHP
$pdfText = '';
if(isset($_POST['submit'])){
    // If file is selected
    if(!empty($_FILES["pdf_file"]["name"])){
        // File upload path
        $fileName = basename($_FILES["pdf_file"]["name"]);
        $fileType = pathinfo($fileName, PATHINFO_EXTENSION);

        // Allow certain file formats
        $allowTypes = array('pdf');
        if(in_array($fileType, $allowTypes)){
            // Include autoloader file
            include 'vendor/autoload.php';

            // Initialize and load PDF Parser library
            $parser = new \Smalot\PdfParser\Parser();

            // Source PDF file to extract text
            $file = $_FILES["pdf_file"]["tmp_name"];

            // Parse pdf file using Parser library
            $pdf = $parser->parseFile($file);

            // Extract text from PDF
            $text = $pdf->getText();

            // Add line break
            $pdfText = nl2br($text);
        }else{
            $statusMsg = '

Sorry, only PDF file is allowed to upload.

';
        }
    }else{
        $statusMsg = '

Please select a PDF file to extract text.

';
    }
}

// Display text content
echo $pdfText;

_

Tambahkan Tanda Air ke PDF yang Ada menggunakan PHP

Apakah Anda ingin mendapatkan bantuan implementasi, atau memodifikasi atau meningkatkan fungsionalitas skrip ini?

Bagaimana cara mendapatkan konten file PDF di PHP?

Ekstrak Teks dari PDF .
Inisialisasi dan muat pustaka PDF Parser
Tentukan file PDF sumber dari mana konten teks akan diambil
Parsing file PDF menggunakan fungsi parseFile() dari kelas PDF Parser
Ekstrak teks dari PDF menggunakan metode getText() dari kelas PDF Parser

Bagaimana cara mendapatkan konten file di PHP?

file_get_contents() membaca file menjadi string. Fungsi ini adalah cara yang disukai untuk membaca isi file menjadi string. Ini akan menggunakan teknik pemetaan memori, jika didukung oleh server, untuk meningkatkan kinerja.

Apa perbedaan antara fungsi file () dan file_get_contents () tulis dengan program kecil?

file — Membaca seluruh isi file ke dalam array baris. file_get_contents — Membaca seluruh isi file menjadi sebuah string .

Bagaimana cara menampilkan file PDF di PHP?

php $file = 'boneka. pdf'; . pdf'; . aplikasi/pdf'); . Di barisan; . $namafile.