Hvordan kode for å trekke ut tekst fra en DOCX-fil

Hvordan kode for å trekke ut tekst fra en DOCX-fil


I programmerings verden, og vite hvordan du skal lese Microsoft Word docx-filformat kan du spare tid når du trenger innholdet i en DOCX-fil. DOCX er et nytt format i Microsoft Office 2007 og nyere. Dette formatet støtter XML-standarden, som ble utviklet for disse versjonene av Microsoft Office-produkter. XML er rett og slett et sett av regler for koding dokumenter som en DOCX. Du kan bruke Microsoft Visual Basic .NET (VB.NET) for å lese og vise innholdet i en DOCX-fil.

Bruksanvisning

1 Åpne Microsoft Visual Basic Express og velg "New Project ..." fra den venstre ruten på skjermen. Klikk på "Visual Basic" under "Installerte maler" og dobbeltklikk på "Console Application".

2 Klikk på "Toolbox" panelet og dobbeltklikk på "knapp" for å legge til en ny knapp i skjemaet. Dobbeltklikk på "tekstboksen" for å legge til en ny tekstboks kontroll i skjemaet.

3 Klikk på "Project" -menyen og velg "<prosjektnavn> Egenskaper." Klikk "Referanser", velg deretter "Legg til". Velg ".NET" og klikk "DocumentFormat.OpenXml." Klikk på "OK". Dobbeltklikk på "Button1" for å åpne VB vinduet.

4 Kopier og lim inn følgende kode i selve toppen av VB.NET modulen for å erklære navnerom:

importen System.IO

importen DocumentFormat.OpenXml.Packaging

importen DocumentFormat.OpenXml.Wordprocessing

5 Kopier og lim inn følgende kode under "button1_click" for å definere banen og dokumentet for å åpne:

Dim strDoc As String = "C:\docxFile.docx"

Dim txt As String

Dim stream Som Stream = File.Open (strDoc, FileMode.Open)

Redigere følgende linje med kode, og skriv inn banen og navnet til dokumentet:

Dim strDoc As String = "C:\docxFile.docx"

6 Kopier og lim inn følgende å kalle prosedyren til å faktisk lese dokumentet:

OpenAndAddToWordprocessingStream(stream, txt)

stream.Close ()

7 Kopier og lim inn følgende for å vise teksten leses i tekstboksen kontroll:

Me.TextBox1.Text = txt

8 Kopier og lim inn følgende fremgangsmåte for å åpne docx-filen og returnere innholdet lese:

Public Sub OpenAndAddToWordprocessingStream(ByVal stream As Stream, ByRef txt As String)

Dim wordprocessingDocument Som WordprocessingDocument = wordprocessingDocument.Open (strøm, sann)

Dim kroppen som kroppen = wordprocessingDocument.MainDocumentPart.Document.Body

txt = body.InnerText.ToString

wordprocessingDocument.Close ()

End Sub

9 Trykk "F5" for å kjøre programmet, og klikk deretter på "Button1" for å utføre koden.