Du bist nicht angemeldet.

Stilllegung des Forums
Das Forum wurde am 05.06.2023 nach über 20 Jahren stillgelegt (weitere Informationen und ein kleiner Rückblick).
Registrierungen, Anmeldungen und Postings sind nicht mehr möglich. Öffentliche Inhalte sind weiterhin zugänglich.
Das Team von spieleprogrammierer.de bedankt sich bei der Community für die vielen schönen Jahre.
Wenn du eine deutschsprachige Spieleentwickler-Community suchst, schau doch mal im Discord und auf ZFX vorbei!

Werbeanzeige

1

30.09.2009, 17:27

UTF8 -> wstring

Ich habe eine Textdatei im UTF8 Format. Diese möchte ich mit C++ laden und dort weiterverarbeiten.
Ich denke mal, dass UTF8 im Ram nicht so unterstützt wird, daher sollte man wohl wstring nehmen. Damit sollte dann wohl auch boost::spirit die äüö's korrekt parsen, hoffe ich.

Also, gibt es dafür irgendetwas vorgefertigtes, plattformunabhängiges standard C++ mäßiges, um das zu erreichen?
Lieber dumm fragen, als dumm bleiben!

David_pb

Community-Fossil

Beiträge: 3 886

Beruf: 3D Graphics Programmer

  • Private Nachricht senden

2

30.09.2009, 17:44

Boost bietet eine UTF-8 Codecvt Facet an: http://www.boost.org/doc/libs/1_40_0/libs/serialization/doc/codecvt.html

Nox

Supermoderator

Beiträge: 5 272

Beruf: Student

  • Private Nachricht senden

3

30.09.2009, 17:52

geht sowas nicht auch mit mbstowcs? Aber gut ne Boostlösung ist da wohl sauberer. Bei mbstowcs muss man drauf achten welche codierung gerade aktiviert ist.
PRO Lernkurs "Wie benutze ich eine Doku richtig"!
CONTRA lasst mal die anderen machen!
networklibbenc - Netzwerklibs im Vergleich | syncsys - Netzwerk lib (MMO-ready) | Schleichfahrt Remake | Firegalaxy | Sammelsurium rund um FPGA&Co.

4

01.10.2009, 02:06

Hm, also der Einfachheit halber habe ich versucht die Datei mal direkt wstring kompatibel abzuspeichern.
Mit notepad++ habe ich die also zu UCS-2 konviertier und versuche sie dann zu laden. Da cout kein wstring mag, schreibe ich das ganze wieder in eine Datei:

C-/C++-Quelltext

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
wstring GetFileData(const wstring& Filename)
{
    wifstream File;
    wstring Result;

    File.open(Filename.c_str());
    if(File.is_open())
    {
        unsigned int Length;
        File.seekg(0, ios::end);
        Length=File.tellg();
        File.seekg(0, ios::beg);

        Result.reserve(Length);
        while(!File.eof())
            Result+=File.get();
    }
    return Result;
}


int main()
{
    wofstream Output;
    Output.open("Output.txt", ios::trunc);
    wstring Text=GetFileData(L"Fragen.csv");

    Output.write(Text.c_str(), Text.length());

    return 0;
}


So, jetzt hat Notepad++ 2 Optionen für UCS-2, nämlich BigEndian und Little Endian. Beide funktionieren aber nicht wirklich, jede Zweite Zeile besteht jeweils aus nicht darstellbaren Zeichen 8wieder in Notepad++). Es muss wohl was mit dem Zeilenende zu tun haben, aber ich weiß nicht, wie ich es beheben soll.
Lieber dumm fragen, als dumm bleiben!

Nox

Supermoderator

Beiträge: 5 272

Beruf: Student

  • Private Nachricht senden

5

01.10.2009, 11:05

Zum Thema "cout mag kein wchar_t*": es gibt nicht umsonst wcout ;)
PRO Lernkurs "Wie benutze ich eine Doku richtig"!
CONTRA lasst mal die anderen machen!
networklibbenc - Netzwerklibs im Vergleich | syncsys - Netzwerk lib (MMO-ready) | Schleichfahrt Remake | Firegalaxy | Sammelsurium rund um FPGA&Co.

6

01.10.2009, 13:21

Oh, ok :oops:

Allerdings ist das immer noch seltsam:

C-/C++-Quelltext

1
2
3
4
wstring Text=GetFileData(L"Fragen.csv");
wstring Test(L"töööst");
wcout << Test << endl;
wcout << Text << endl;

jetzt steht in der Konsole "t%%%st", was meiner Mienung nahc noch ok ist, weil die vielleicht nicht Unicode so mag, aber dann kommt der Dateiinhalt mit einem Leerzeichen hinter jedem Zeichen.
Der Debugger zeigt mir auch an, dass Test aus lauter wchar Zeichen besteht, Text allerdins wchar Zeichen gefolgt von jeweils einer Null hat. Also so als hätte der filestream die Datei als Ansi Datei eingelesen, und aus jedem Zeichen ein wstring gemacht.

Naja, wenn meine Textdatei jetzt als Ansi Datei speichere und so tue als ob nix wäre, arbeitet Spirit jedenfalls korrekt, und das was hinten raus kommt sieht auch gut aus.
Eine kurze Erklärung wäre vielleicht ganz nett, aber jetzt bin ich erstmal zufrieden, dass alles läuft.
Lieber dumm fragen, als dumm bleiben!

David_pb

Community-Fossil

Beiträge: 3 886

Beruf: 3D Graphics Programmer

  • Private Nachricht senden

7

01.10.2009, 17:38

Du hast das binary-Flag beim öffnen vergessen.

Werbeanzeige