HTML zu Markdown Compiler, Leerzeichen zwischen Strings und Elementen einfügen

Community-Fossil

Wohnort: Rheda-Wiedenbrück

Beruf: Software-Entwickler

16.06.2016, 22:19

HTML zu Markdown Compiler, Leerzeichen zwischen Strings und Elementen einfügen

Moin,

ich bastel gerade einen HTML <-> Markdown Compiler (in beide Richtungen). Dabei bin ich jetzt auf ein Problem von HTML -> Md gestoßen für das mir gerade keine Lösung einfällt. Und zwar zerlege ich die Eingabe in Tokens, Beispiel:

	Quellcode
1 2	Hello <e>World</e>! Hello <e>happy</e> World!

Wird zu (kommasepariert, whitespace um strings und Zeilenumbrüche werden entfernt):

	Quellcode
1 2	Hello,<,e,>,World,<,/,e,>,!, Hello,<,e,>,happy,<,/,e,>,World!

Wie ihr seht steht hier in der ersten Zeile das ! allein, in der zweiten nicht.
Problem: wie füge ich jetzt entsprechend Leerzeichen ein, so dass dort folgendes herauskommt:

	Quellcode
1 2	Hello World! Hello happy World!

Ich kann weder für <e... noch für </e... einfach ein Leerzeichen einfügen, dann hätte das ! eines welches dort nicht hingehört. Nur für eines der beiden einfügen geht auch nicht, dann würde das "happy" links oder rechts mit am Wort kleben.
Fällt jemanden von euch eine Möglichkeit ein hier richtig zu unterscheiden?

Das ganze Ding gibt es auf GitHub. Relevant ist vor allem die ParseBlock() Funktion in der compiler Datei. An den Tokens kann ich auch erkennen ob es sich um ein Element oder um einen string handelt, falls das irgendwie hilft hier (wird für den tokenizer sowieso benötigt). Unter test findet ihr die Dateien mit denen ich teste. Alle Go Dateien mit _test.go am Ende sind Unit Tests.

Ich baue das ganze weil ich nichts finden konnte was beide Richtungen kann, ich Spaß daran habe und weil ich einen modularen Parser brauche (um mit speziellen Elementen erweitern zu können, für die Plattform die ich schon mal im offtopic gezeigt habe).

Grüße, Kugel

GitHub Meine Firma Pirsch Analytics

Zum Seitenanfang

Community-Fossil

Wohnort: Hamburg

Beruf: Student

16.06.2016, 22:40

Ist World! ein zusammenhängendes Token? Oder sind das später zwei, einmal der Bezeichner/das Wort World und einmal !?

Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

Zum Seitenanfang

Community-Fossil

Wohnort: Rheda-Wiedenbrück

Beruf: Software-Entwickler

16.06.2016, 22:43

Wenn ein Element, also <irgendwas> oder <irgendwas /> oder </irgendwas>, dazwischen ist sind es zwei, sonst eins. Im tokenizer siehst du oben alle Delimiter. Bei der aktuellen (falschen) Lösung sieht es entweder so:

Hello World !

oder so

Hellohappy World!

oder so

Hello happyWorld!

aus. Ich will aber beide Fälle können.

Grüße, Kugel

GitHub Meine Firma Pirsch Analytics

Zum Seitenanfang

Community-Fossil

Wohnort: Hamburg

Beruf: Student

16.06.2016, 22:47

Wären es immer zwei wäre es einfacher. Wenn alles von [a-zA-Z] ein Token ist und alle anderen Zeichen separate Token hast du eine optimale (und semantisch korrekte) Trennung und (soweit ich das sehe) würde das dein Problem lösen.

Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

Zum Seitenanfang

Community-Fossil

Wohnort: Rheda-Wiedenbrück

Beruf: Software-Entwickler

16.06.2016, 22:48

Verstehe ich nicht ganz. Ich will ja kein Leerzeichen zwischen "Wort" und "!" haben, aber zwischen "Wort" und "weiteres Wort" schon.

Edit

Ja doch ich glaub ich habs gerade verstanden. Du willst also quasi in "Wort", "noch eins", "!" zerlegen und semantisch zwischen Worten und Sonderzeichen unterscheiden? Das könnte schwierig werden wenn man z.B. sowas hat: "P!nk" und daraus "P! ink" wird.

Grüße, Kugel

GitHub Meine Firma Pirsch Analytics

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »DeKugelschieber« (16.06.2016, 22:55)

Zum Seitenanfang

Community-Fossil

Wohnort: Hamburg

Beruf: Student

16.06.2016, 22:56

Ich stelle mir die optimalen Lexeme wie folgt vor:
Hello <e>World</e>!
produziert den folgenden Token-Stream:
[Token::Identifier("Hello"), Token::OpenTag('e'), Token::Identifier("World"), Token::CloseTag('e'), Token::Mark('!')]

und

Hello <e>happy</e> World!
diesen
[Token::Identifier("Hello"), Token::OpenTag('e'), Token::Identifier("happy"), Token::CloseTag('e'), Token::Identifier("World"), Token::Mark('!')]

Dann kannst du Open- und CloseTags sowie deren dazwischenliegenden Token im nächsten Schritt als Expressions zusammenfassen und somit validieren und dann entsprechend ersetzen.

edit: Wobei dass dein eigentliches Problem nicht löst. Bin echt durch heute.. Du willst ja eig. die vorherigen Leerzeichen so wieder herstellen wie sie waren. Also wäre es das passendste wenn du die nicht filterst sondern so bei behältst (also auch als eigenes Token).

edit2:

Zitat

Ja doch ich glaub ich habs gerade verstanden. Du willst also quasi in "Wort", "noch eins", "!" zerlegen und semantisch zwischen Worten und Sonderzeichen unterscheiden? Das könnte schwierig werden wenn man z.B. sowas hat: "P!nk" und daraus "P! ink" wird.

Genau, siehe meinen ersten edit. Das wäre IMO das einfachste.

Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

Zum Seitenanfang

Community-Fossil

Wohnort: Rheda-Wiedenbrück

Beruf: Software-Entwickler

16.06.2016, 23:04

Nicht unbedingt wieder herstellen, da ich dem HTML Code nicht wirklich vertraue(n kann). Zwar muss ich natürlich ein paar Grundannahmen machen und dann auch "falsch" parsen wenn man Quatsch reinwirft, aber whitespaces beizubehalten... hmm. Ich glaube ich habs vor ein paar Tagen wegen irgend einem anderen Problem rausgenommen. Muss ich mal testen.

Compiler für Programmiersprachen sind einfacher, da ist nicht alles so "weich"

Grüße, Kugel

GitHub Meine Firma Pirsch Analytics

Zum Seitenanfang

Community-Fossil

Wohnort: Hamburg

Beruf: Student

16.06.2016, 23:08

Leerzeichen außerhalb von Tags sollten Ok sein. Tabs oder anderweitig multiple nacheinander auftretende Leerzeichen könntest du ja in einen Leerzeichen zusammenfassen.

Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -

Zum Seitenanfang

Community-Fossil

Wohnort: Rheda-Wiedenbrück

Beruf: Software-Entwickler

16.06.2016, 23:23

Ja aber was mache ich mit sowas: Hello <b>happy</b>World!
Jeder Browser bekommt das hin. Aber wie?

Grüße, Kugel

GitHub Meine Firma Pirsch Analytics

Zum Seitenanfang

Community-Fossil